智东西11月17日最新报道,斯坦福大学著名教授、World Labs联合创始人兼首席执行官李飞飞,近日受邀参与海外热门科技播客Lenny"s Podcast,分享了她对人工智能未来趋势的深刻洞察。她犀利指出,AI的进步不能永远依赖于Scaling Law(缩放定律),必须寻求基础性技术突破;而所谓“通用人工智能”(AGI)更多是一种市场宣传用语,而非精确的科学概念。
李飞飞结合自身二十多年的科研与创业旅程,提炼出现代AI成功的核心要素:神经网络架构、海量数据与GPU算力的融合。直至今日,ChatGPT的巨大成功依然沿用这一经典配方。
然而,她郑重警告,单纯依靠扩充数据规模和计算资源的“暴力堆砌”,无法实现智能的本质飞跃。当前AI系统依然难以胜任许多人类轻松完成的任务,例如从动态视频中准确统计物体数量,或者像牛顿那样从观测现象中归纳物理法则。
李飞飞强调,我们距离开发出真正拥有创造力、抽象思维与情感智能的AI系统仍有遥远征程,“现阶段AI无能为力的领域依然广阔”。
针对行业热烈讨论的AGI概念,李飞飞保持审慎态度。她认为AGI定义过于模糊,作为科学家,她更聚焦于攻克AI面临的根本性技术难题,而非陷入概念争论的漩涡。
▲李飞飞接受专访(图片来源:Lenny"s Podcast)
作为创业者,她也坦承AI领域的竞争空前白热化。过去“简单模型配合巨量数据”的成功路径,即所谓的“苦涩教训”,在机器人等涉及物理现实的应用中并不完全奏效。自动驾驶技术历经近二十年发展仍未完全成熟,便是鲜明例证。
而数据采集困难、硬件限制等因素,使得在三维空间中进行物体操控的机器人技术,面临比自动驾驶更为严峻的挑战。
尽管前路漫漫,李飞飞始终深信,AI的演进是数代人智慧累积的成果,仅靠当前的“语言智能”远远不足。人类在众多关键情境中依赖的是空间智能,深入研究空间智能,不仅对机器人、具身智能的发展至关重要,还能在具身层面增强人类能力,使我们在空间理解、物体操控和现实任务执行中获得全新赋能。
以下为李飞飞本次访谈核心观点的精要梳理,完整对话可参阅文末链接:
访谈中,李飞飞追溯了初入AI领域时的往事。
2000年,李飞飞于加州理工大学开启博士生涯。作为首批机器学习研究者之一,她的重点研究方向包含神经网络。彼时,AI仍处于少人关注的“寒冬期”,公众兴趣寥寥,资金也相当有限。
李飞飞的学术焦点始终集中于视觉智能。她认为,若人类智能高度依赖视觉,那么机器智能也必须从“理解世界”起步。因此,她在博士及早期教职阶段,选择了最基础也最富挑战的领域——物体识别。
当时,数据对AI的关键价值尚未获得普遍认同。随着研究持续推进,李飞飞及其团队逐渐领悟:大数据,是激活AI潜能的核心要素。
于是,她做出了一个极具魄力的决定——搜集互联网中所有关于物体的图像数据。就此,ImageNet项目于2006年左右启动。最终,该项目汇聚了1500万张图片、涵盖2.2万个物体类别,并设立了年度竞赛。
这个看似大胆的项目成为了现代AI的火种。2012年,辛顿团队利用ImageNet数据与两块普通游戏GPU,训练出了划时代的神经网络模型。大数据、神经网络与GPU的三者结合,被李飞飞誉为“现代AI的黄金配方”。
时光飞跃十年,当ChatGPT震撼问世,让全球首次真切感知AI威力时,其基石仍是那套经典组合:神经网络、大数据、GPU。李飞飞指出,两者差异主要在于规模层级。
尽管常被尊称为“AI教母”,但李飞飞更愿强调:AI的飞跃非一人之功,而是历代研究者共同积淀的成果。
AGI何时到来?这几乎成为所有AI学者、专家与企业高管访谈的标配问题。李飞飞看来,AGI这一概念颇为微妙,甚至少有人能清晰界定。
李飞飞直言:“我进入AI领域是受一个问题驱动——机器能否像人类一样思考与行动。从这个层面看,我不清楚AI与AGI有何本质区别。”她进一步设想,若艾伦·图灵仍在世,并被问及AI与AGI之别,他或许只会耸肩答道:“我在上世纪40年代提出的正是同一问题。”
AI是引领李飞飞前行的“北极星”,她表示不愿陷入定义AI与AGI的概念迷宫,AGI更似营销术语,而非科学术语。作为科学家与技术专家,她并不在意人们如何命名这项技术。
李飞飞在对话中着重指出,尽管更大数据集、更多GPU及扩展现有模型架构仍能提升性能,但AI的发展绝不能仅仰仗Scaling Law。
当前AI依然无法完成许多连孩童都可轻松应对的任务,例如在一段视频中精确清点椅子数量;更毋庸说像牛顿或爱因斯坦那样,从观测中推导出全新自然规律。即便为AI提供现代仪器收集的全部数据,它仍无法重构17世纪的运动定律。
这些实例表明,我们距离真正具备创造力、抽象能力与情感智能的AI尚有长路,未来亟需根本性技术创新,而非简单叠加算力。
近日,李飞飞发布万字长文,详细阐释了空间智能理念,并提出AI的下一个前沿是空间智能。在本次访谈中,她也分享了类似观点。李飞飞认为,仅凭语言智能是不够的,因为人类在诸多关键场景中依赖的是空间智能——例如火灾、交通事故或自然灾害现场的应急决策。
这些活动需要对物体、动作、空间关系与情境的即时理解,而非仅靠语言就能达成。她在机器人研究中逐渐意识到,具身智能的核心在于理解三维世界。
在此背景下,“世界模型”成为推动AI下一阶段发展的关键方向。与传统语言模型不同,世界模型不仅能依据文字或图像生成完整虚拟世界,还能让智能体在其中交互、推理。若应用于机器人,世界模型将成为其路径规划、场景理解与操作执行的基础。
李飞飞强调,世界模型与空间智能不仅是机器人发展的关键缺失环节,也紧密关联人类自身。人类本就是具身智能体,而AI已在语言层面增强我们的能力,例如辅助写作或软件工程;未来,世界模型同样能在具身层面增强人类,使我们在空间理解、物体操作与现实世界任务中获得崭新力量。
世界模型与空间智能还将深刻影响设计、工程与科学发现。例如,DNA双螺旋结构的发现依赖于人类从一张二维X射线衍射图像中进行三维空间推理,而这类跨维度的空间抽象正是当前AI难以企及的。世界模型若能突破,将使AI具备更深层次的空间推理能力。
李飞飞还谈及World Labs近期发布的产品Marble,这是一款基于前沿世界模型的应用,能够仅通过一句话或一张图像生成可探索的三维世界。用户可在这些虚拟环境中自由行走、交互与导航,从而实现创意、设计、虚拟制作与机器人模拟等多种用途。
她强调,Marble不仅仅是生成二维视频,而是提供拥有真实空间结构的世界,使创作者、游戏开发者、设计师与研究者能够快速生成沉浸式场景。实际案例涵盖电影虚拟制作、心理学实验与机器人训练环境合成等。
Marble与视频生成模型存在本质区别。李飞飞称,Marble核心聚焦空间智能,强调对三维与四维世界的理解、交互与推理。同时,平台支持将场景导出为视频或网格数据,用于创作或模拟。
李飞飞透露,成立18个月的World Labs目前拥有一支约30人的团队,主要由研究员与工程师组成,同时也包含设计师与产品人员。
李飞飞此前已有多次“创业”经历,从19岁经营的干洗店,到作为AI首席科学家领导谷歌云相关研究,再到斯坦福以人为本AI研究所,她对创业的挑战性早有心理准备。
然而,当真正投身AI创业后,她仍被AI领域的激烈竞争所“震撼”,从模型技术之争到顶尖人才争夺,她意识到必须时刻保持警觉。
李飞飞在访谈中,也论及强化学习先驱Richard Sutton提出的“苦涩的教训”:简单模型配合海量数据往往比复杂模型加少量数据更有效。对她而言,这并非“苦涩”,而是“甜蜜”的启示,也是她当年构建ImageNet的核心信念。然而,她强调,这一教训无法简单移植于机器人领域。
原因首先在于机器人数据极难获取。与语言模型不同,语言训练数据是天然结构化的词与标记,输入输出形式高度一致,而机器人真正需要的是三维世界中的动作数据。
网络视频虽丰富,却缺乏可直接用于训练行动策略的动作标注。因此,机器人训练不得不依赖遥操作数据或合成数据弥补。换言之,机器人数据不像语言那样自然“对齐”,这使得苦涩教训中的“大数据”假设难以完全成立。
其次,机器人是物理系统,而非纯软件模型。与语言模型或视觉模型不同,机器人更似自动驾驶汽车——必须在现实世界中运行、涉及硬件、供应链、应用场景等多重复杂因素。
李飞飞回顾了自动驾驶的发展:从2005年斯坦福赢得DARPA挑战赛至今已近20年,深度学习虽加速了算法进步,但自动驾驶仍未完全解决。而自动驾驶仅是更简化的机器人,只需在二维平面上避免碰撞,相比之下,机器人需在三维空间中操控物体,难度更高。
尽管如此,她依然相信大数据、世界模型与空间智能将是机器人突破的关键,只是目前仍处非常早期的探索阶段。
访谈尾声,李飞飞主动谈及全球范围内对AI是否会取代人类的普遍焦虑。她认为,任何技术发展都不应以牺牲人的尊严与能动性为代价,这应成为技术开发、部署与治理的核心准则。
无论是年轻艺术家利用AI进行创作,还是临近退休的农民作为公民参与AI监管决策,抑或是护士在AI辅助下从繁重工作中解脱,AI的真正价值在于成为增强人类能力、服务人类需求的赋能者。
对于AI取代人类的终极命题,李飞飞给出了明确而有力的回应:在AI时代里,每个人都有属于自己的一席之地。
来源:
https://www.youtube.com/watch?v=Ctjiatnd6Xk
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120328.html