【导读】世界模型当前正引发广泛关注!近日,李飞飞的重磅访谈内容公开,从人工智能革命的开端延伸到下一个智能前沿——具备空间智能的世界模型。这场访谈让我们得以窥见AI教母对技术未来的深度思考。
回溯二十年前,李飞飞主导构建的ImageNet数据集,犹如一束火种,全面点燃了深度学习领域的变革浪潮。
如今,人工智能热潮席卷全球,她坚定认为「世界模型」将是未来十年AI发展的关键方向。
就在近期,李飞飞在Lenny Rachitsky的最新播客节目中,回顾了AI如何从寒冬时期步入今天的繁荣阶段。
有趣的是,她揭示了AI发展历程中一些不为人知的细节——
大约在九到十年前,自称AI公司几乎等同于「商业自杀」,因为当时无人相信AI技术能真正投入实用。
谁能预料到,现在每家企业都在争相标榜自身为「AI公司」。
在这段长达1小时20分钟的访谈中,李飞飞还分享了对AI如何影响人类的见解,探讨了当前技术的边界,解释了她为何对「世界模型」如此着迷,以及「世界模型」的具体内涵....
通过这次深度对话,李飞飞搭建了一座通向未来的桥梁,让我们能够前瞻AI的下一个十年。
· 人工智能没有任何部分是「人为」创造的,AI现在或将来的行为,完全取决于人类自身的引导。
· 大数据、神经网络与GPU共同构成了现代AI的「黄金三要素」。
· 不仅是机器人,人类本身也是具身智能体,同样可以从空间智能与世界模型中获益。
· 机器人面临的核心困境在于数据获取。它更接近于自动驾驶汽车,而非大语言模型。
· 每个人在AI的未来中都承担着重要角色。
要预见未来,必须先理解过去。
在21世纪初,AI领域正处于漫长的「寒冬」时期。那时,AI更常见的称呼是「机器学习」。
机器学习的起源,是计算机编程与统计学习的结合。
这场「联姻」让科学家们认识到,仅依靠纯规则的程序无法使计算机获得强大的认知能力。
2000年,正在加州理工学院攻读博士学位的李飞飞,正式踏入AI领域,成为机器学习早期一代的研究者。
当时,她在加州理工修读的第一门课程就是「神经网络」。对此,她回忆道,「那段经历确实颇具挑战」。
那正是所谓「AI寒冬」的中期阶段:公众关注度极低,资金投入有限,但学术圈内各种创新思想不断涌现。
有两件事让我的个人科研轨迹与现代AI的诞生紧密相连。
第一件事是「视角选择」,即从「视觉智能」角度理解AI。
因为人类本质上是高度依赖视觉的生物。我们的大部分智能建立在视觉、感知和空间理解之上,而不仅仅是语言。
这正是李飞飞在博士期间与学生共同聚焦的「北极星」问题——物体识别。
另一件事是她发现了一个关键痛点:早期AI研究过于关注模型本身,但这些模型缺乏足够的数据进行训练。
李飞飞突然意识到,人类学习与生物进化本质上都是一个「大数据学习」过程。
· 人类依靠大量经验进行学习;
· 动物也是在不断「体验世界」的过程中进化而来的。
于是,她和学生提出了一个大胆假设——要让AI真正「活」起来,一个被严重忽视却至关重要的因素就是「大数据」。
因此,2006-2007年,李飞飞和学生启动了一项在当时看来近乎疯狂的「蛮力」工程——ImageNet。
他们从互联网收集了1500万张图像,并标注了横跨22000个类别的精准标签。
随后,ImageNet数据集开源,并启动了年度竞赛。
2012年被公认为深度学习即现代AI起步的关键转折点。
这一年,多伦多大学的一组研究者在Geoffrey Hinton带领下参加了ImageNet挑战赛。
令人震惊的是,他们仅用2块英伟达GPU和ImageNet数据,训练出首个在大规模视觉任务中表现卓越的神经网络——AlexNet。
它并未彻底解决问题,但向「物体识别」迈出了重大一步。
「大数据、神经网络与GPU」这三项技术构成了现代AI的「黄金三件套」。
李飞飞提到,那时「AI」与「机器学习」这两个术语常交替使用。
大约在2015年中至2016年中,硅谷大公司刻意避免使用「AI」一词,他们不确定AI是否会带来负面印象。
一年后,看到AI拐点出现,许多企业开始将自身定位为「AI公司」。
主持人提问:「我们离AGI还有多远?现有技术路线能否实现?」
李飞飞认为,AI与AGI之间没有清晰的科学界限,AGI更像营销术语而非严谨科学概念。
AGI并无统一定义,是实现超级智能?还是能赚取足够收入维持自身?
当初,李飞飞进入这一领域,是被一个问题驱动:机器能否像人一样思考与行动?
对她而言,这才是AI的「北极星」目标。无论他人如何称呼,她已对「AI」这个名称感到满意。
在创办World Labs之前,李飞飞曾多次公开阐述空间智能与世界模型的理念。
几天前的一篇长文中,她明确指出,AI未来十年的下一个前沿就是「空间智能」。
李飞飞表示:「人类智能的核心,除语言外,还有空间智能。」
2020年底,GPT-2发布时,公众尚未意识到LLM的强大潜力。
但在斯坦福,李飞飞与Percy Liang、Chris Batting等顶尖NLP研究者认为——这项技术将改变一切。
他们甚至创立了全球首个专注于「基础模型」的研究中心,并发表了学术界首篇系统性探讨基础模型的论文。
因「视觉智能」背景,李飞飞当时思考,除了语言,AI领域仍有巨大发展空间。
因为人类成就许多事情,依赖的不仅是语言,更大量借助空间智能和对世界运作方式的理解。
她举了一个生动的「救火」例子,侧面说明LLM再强大也无法灭火、救人或设计建筑。
同时,李飞飞也进行大量机器人研究。
后来她突然意识到:要将语言之外的智能、「具身AI」机器人与视觉智能串联起来,关键的「枢纽」便是「空间智能」。
从2022年起,李飞飞基于机器人与计算机视觉领域的研究,开始系统化这一概念。
2024年,她进行了一场TED演讲,主题正是「空间智能」与「世界模型」。
随后,她创办了World Labs,公司名称中的world一词,正体现她对「世界模型」与「空间智能」的重视。
那么,什么是世界模型?
用李飞飞的话说,当你输入一张图像或一段描述,就能生成一个可无限探索的3D世界。
它是一个「基础层」,人们可在此基础上进行推理、交互,也可用它创造多样世界。
除了机器人,她还认为:「人类本身也是具身智能体」,其能力可被AI大幅增强。
人类作为具身智能体,同样能从世界模型和空间智能模型中受益匪浅,而不仅仅是机器人。
李飞飞举例道,仅凭Rosalind Franklin拍摄的2D X射线衍射照片,James Watson和Francis Crick在脑海中构建3D模型,从而发现DNA双螺旋结构。
也就是说,没有「空间智能」,就没有这一重大发现。
截至目前,Marble平台是李飞飞「世界模型」理念的集大成者。
在行业应用中,Marble已深入多个领域,包括电影与虚拟制片、游戏与互动内容、机器人模拟与训练等。
入口:https://marble.worldlabs.ai/
电影拍摄中,许多场景是虚拟的,需先在计算机中搭建3D世界。然而,传统美术团队手工建模、布置灯光、调整摄像机位,既耗时又昂贵。
有了Marble,导演仅用几句描述就能生成可导航的世界。
不仅如此,虚拟摄像机可自由移动,场景可反复修改与扩展。
李飞飞提到,艺术家团队及导演们表示,「这让他们的制作时间缩短了40倍」。
在游戏与互动内容领域,开发者可将Marble生成的世界导出到游戏引擎中,用作关卡原型或场景底稿,再添加逻辑、玩法与角色。
这让小团队也有机会创建「大片级场景」,而不被美术资源限制。
当然,最重要的应用仍是机器人模拟与训练。机器人要在现实世界工作,训练数据是一大难题。
苦涩的教训,为何在机器人领域行不通?
图灵奖得主Richard Sutton在《苦涩的教训》一文中得出结论——
「更简单的模型+海量数据」会击败「更复杂的模型+少量数据」。
对李飞飞而言,这不是苦涩,而是「甜蜜的教训」。
这也是我创建ImageNet的原因,因为我始终相信「大数据」在其中扮演关键角色。
她一针见血指出,机器人的困境始于数据。
一方面,在现实中,机器人数据极难获取。
语言模型的数据是现成文本,输入输出均为文本。
而机器人则不同,它需输出「动作」,在真实三维世界中运动、抓取、接触。
人类大部分训练数据只有视频,缺乏真实动作轨迹。因此,研究者需通过远程遥操作、合成数据、模拟环境等方式收集数据。
另一方面,机器人是一个「物理系统」。它更接近自动驾驶汽车,而非大语言模型。
这意味着,要让机器人实际工作,不仅需要「大脑」(算法与模型),还需要「身体」(硬件本体)以及合适的应用场景。
回顾自动驾驶汽车发展史,从2005年DARPA挑战赛到今天的Waymo,近二十年过去,仍未完全实现「零碰撞」目标。
李飞飞称,「而自动驾驶汽车,其实是一种相对简单的机器人」。
它本质上是二维路面上行驶的金属盒子,目标是「避免碰撞任何物体」。
但机器人需在三维世界中活动,目标恰恰是「要去接触各种物体」。
因此,这条路必然漫长,且涉及多个维度和不同挑战,需逐步解决。
她的态度并非「苦涩教训无效」,而是机器人研究尚处早期,数据、硬件、应用场景等问题众多。
「多数据+大模型」至关重要,但我们远未达到「此路必胜」的阶段。
在数据方面,研究者通过Marble用提示词生成各种房间、工厂、厨房、仓库场景,让机器人在虚拟世界先行练习。
这正呼应了李飞飞最初的信念:
智能源自大数据学习,关键是为机器人提供足够多且多样的「世界经验」。
回顾自身选择,李飞飞总结其判断标准颇为朴素——
· 从普林斯顿获得终身教职机会后,仍决定前往斯坦福
· 在学术界取得成功后,前往谷歌云担任首席科学家
· 回归斯坦福后,又牵头成立HAI,推动跨学科、政策与社会影响研究
· 在大模型浪潮与世界模型机遇出现时,选择创业创立World Labs
李飞飞的个人经历,可为AI领域寻求机遇的年轻人提供借鉴。
不先问「哪里最赚钱」,而是先问「什么问题最让我夜不能寐?」
她当然知晓创业风险诸多,但不会让风险压倒「使命感」。
无论是加入SAIL、谷歌云,还是创立World Labs,
她关注的都是:我将与谁共事?这群人是否值得携手前行?
除创业外,李飞飞仍在推进另一项「缓慢而重要」的工程:斯坦福HAI(以人为本人工智能研究院)。
在AI发展上,每个人都扮演角色。她说自己无论走到哪里,都会被问到类似问题:
我是音乐家,AI会取代我吗?我是中学教师,AI会让我的工作失去价值吗?
我是护士,AI会让我失业吗?我是农民,我还能扮演什么角色?
李飞飞的回答非常坚定:是的,你在AI的未来中扮演着自己的角色。而且这一角色至关重要。
参考资料:
https://x.com/lennysan/status/1990121400578052423?s=20
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120289.html