尽管马克·扎克伯格口头上表示支持,但并未提供实质性的资金支持。
在Meta效力长达12年之后,图灵奖得主Yann LeCun决定于年底离职,开启创业新篇章。
他在离职信中透露,得益于同事们的持续关注与支持,Meta将成为这家新公司的合作伙伴,但未透露更多细节。
在昨日的巴黎AI-Pulse活动上,LeCun明确表示,Meta并非其新公司的投资者。
LeCun的神秘初创公司不打算开发类似ChatGPT的产品,而是要致力于让AI理解物理世界,专注于他所说的“高级机器智能”,即基于视觉等感官信息训练的AI,用于预测物理世界。
全球科技巨头们正豪掷数十亿美元,疯狂押注驱动ChatGPT、谷歌Gemini和Meta Llama的“大语言模型”(LLM)。这些AI巨擘坚信,Scaling Law足以支撑LLM通往AGI。
然而近几个月来,Yann LeCun逆流而上,掷地有声地指出:大语言模型(LLM)已触及天花板。在文本生成上,它们表现出色,但不懂物理世界,缺乏记忆,而且在多步推理上举步维艰。
博士生不要做LLM。
LLM几乎过时了。
LLM只是token生成器,属于System 1,没有真正推理。
自回归LLM不具备的、达到人类(甚至是狗类)智能水平所需的四项能力。 ……
总之,他对LLM似乎毫无兴趣了,弃之如敝履。
直到最近,Yann LeCun仍坚信,LLM是AI研究界的“毒瘤”。上月在布鲁克林,他直言不讳:“确实,LLM很棒,也很有用。很多人都会用到它,我们理应投资”。但问题在于:“眼下,LLM就像个黑洞,把所有的资源和关注都吸干了,导致其他领域几乎寸草不生。为了下一场革命,我们必须退一步,冷静思考当前的路径到底缺失了什么。”这番言论显得格外耐人寻味。
几个月来,Meta豪掷数十亿美元,重金招揽全明星阵容的LLM专家。据OpenAI的首席研究官透露,Meta已经超越纯砸钱行为。为了挖走人才,小扎亲自端汤送给OpenAI员工:利益和情感,双管齐下,堪称硅谷版“三顾茅庐”。
本质上,这是对Yann LeCun技术路线的一种否定。作为Meta的首席AI科学家,Yann LeCun却公开和小扎“唱反调”。如此剑拔弩张,两人理念冲突可见一斑。这也难怪,LeCun在加入12年后离开Meta。
多年来,Yann LeCun一直是 LLM 的坚定批评者。他始终认为,仅仅依靠从互联网上“鲸吞”文本,无法产生真正的机器智能。他认为,自主的机器智能,需要另辟蹊径:世界模型(World Models)。
在法国AI研究的重点平台ai-Pulse的全体大会上,Yann LeCun将与世界模型领域的先锋公司General Intuition的创始人Pim de Witte共同阐述这一愿景,解析世界模型如何成为明日AI的基石,以及下一个重大的技术突破。
Meta首席AI科学家Yann LeCun、General Intuition首席执行官Pim de Witte、Kyutai首席建模官Neil Zeghidour,以及iliad Group创始人Xavier Niel同台论道
其实,“世界模型”非常古老。早在1943年,“人工智能”一词出现的十二年前,29岁的苏格兰心理学家Kenneth Craik在专著中就深思道:
如果生物体能在其头脑中携带外部现实的“小规模模型”……
它就能尝试多种可能性,推断出其中最佳的方案……
并以一种更全面、更安全、更得体的方式做出反应。
他关于心理模型或模拟的概念,预见了在20世纪50年代改变心理学、并至今仍主导认知科学的“认知革命”。更重要的是,它直接将认知与计算联系起来:Craik认为,“并行或模拟外部事件的能力”是“神经系统”和“计算机器”两者共同的根本特征。
大概10年前,LeCun就开始不断“安利”大家:这才是推动AI进步的道路。其实,在这件事他思考更久。但直到NeurIPS 2016大会上,他做了个主题报告,那次算是第一次系统公开讲:“这就是我们接下来需要攻克的方向”。
然后,又过了大概5年,他才逐渐意识到:不能只靠生成式模型来做这件事,于是开始发展一种新的、非生成式(non-generative)方法,称之为JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。后来,大语言模型(LLMs)来了,它们是生成式的。当时, LeCun反应是:“好,这很有趣,用它来做语言非常好用,我们当然应该去研究,能有大量应用。”但他坚信,这并不是通向人类级智能(或者你愿意怎么叫它都行)的那条路。也就是说,早在LLM爆发之前,他就得出结论:“仅靠把语言模型Scaling,并不能带来真正的智能。”
作为人类,我们倾向于觉得语言对智能是必不可少的,但并非如此。而事实正好有点反直觉:理解物理世界,比理解语言难得多。这听上去可能有点让人惊讶,但它确实是这样。在机器人学里,人们很早就意识到这一点。上世纪80年代后期,著名的机器人学家Hans Moravec就指出:要让电脑如成人般地下棋,相对容易;
但是要让电脑有如一岁小孩般的感知和行动能力,却相当困难甚至不可能。
这后来被称为“莫拉维克悖论”(Moravec"s paradox)。
LeCun举了最新的例子:目前最好的AI可以通过律师资格考试,编写代码。但我们仍然没有一个机器人工人,能像五岁孩子一样行动。显而易见,当前的AI缺少一些真正重要的东西。他认为,当我们思考现实中的场景时,其实是依靠“心理模型”(mental models),也就是我们在脑中操纵的场景表征,我们有物理直觉。而这些东西,绝大部分是我们后天学来的。人类还是婴儿、只有几个月大的时候,主要就是通过观察世界来学习,也伴随着一些交互。过去10年里,LeCun一直尝试去复制人类这种学习方式:
前5年,基本都在踩坑;
后5年,开始取得比较实质的进展,而依靠的是 非生成式架构 。
这些系统能学习现实世界的结构,预判演变,并模拟可能的场景。如果说LLM只是在“预测”,那么世界模型则是在“理解”;如果说LLM只是在“反应”,那么世界模型则是在“规划”。它们构建连贯内部表征的能力,打开了AI在复杂环境中进行推理、行动和交互大门。
一开始,很多人都认为,语言模型之后下一步,自然而然就是先加音频,再加视频。但有趣的是,LeCun并不是纯做“视频模型”,还在用电子游戏数据集来做世界模型。LeCun解释了:为什么光有视频还不够,我们还需要其它什么东西?首先,他承认视频对理解世界非常重要。基本上,视频是我们能获得的最接近现实的表征之一。但他更喜欢把视频比作梦境:很多时候,在梦里你其实没法真正“和看到的东西互动”,你就像一个旁观者,而不是参与者。但从根本上来说,人类的学习是高度交互式(interactive)的。世界模型,不仅仅预测下一帧视频,还要预测“在不同动作下所有可能结果的分布”。这就意味着:在视频表征之外,你还需要大量的动作(action)和交互数据,来真正构建这些世界模型。
LeCun喜欢一个更直观的比喻:
LLM有点像雪球:从山坡上滚下来,一路滚一路粘上更多的雪。
它们是自回归的(auto-regressive):把自己的输出再喂回模型,再预测下一个token。
它们没有“感知”,它们整个世界就是自己,所以会一直滚、一直滚,到山底都不知道自己快要撞到什么东西了。而真正的智能,更像《冰雪奇缘》电影里的雪人Olaf:他知道前面有块石头,要散开自己,绕过去。
文本的局限在于:人类感知到的世界极其丰富,而文本只是一个非常小、且高度压缩的子集。它是建立在人类三维感知之上的一种“描述世界的发明”。但对于世界模型和智能体,你必须能够与环境交互,才能建立对自己所处环境的通用直觉(general intuition)。我们之所以会以为“人类知识大多体现在文本里”,是因为很多我们认为的知识,确实被写成了文字。但事实并不是说所有人类知识都能通过文本很好地表达。真正大部分的人类知识,其实是关于物理世界和各种情境的心理模型和直觉,这些都是不直接以文本形式存在的。人类的思考是在脑子里发生的,不是以token的形式运转,更多是以心理意象(mental imagery)和各种其它表征出现的。LeCun希望构建的系统,也能做到这一点。
在离职信中,LeCun表示尽管与Meta分道扬镳,小扎等Meta高管支持其创业项目。
在巴黎的AI-Pulse活动上,LeCun表示Meta不是投资者。“但在过去几个月发生的事情,让我们双方都意识到,这个项目的应用范围有点超出Meta的兴趣范围,”他说。LeCun说:“硅谷完全被生成模型迷住了”。他暗示必须在硅谷之外,比如在巴黎非主流AI创业。此前,媒体报道Yann LeCun计划离职后,Meta的股价下跌了2%。据此估计,Yann LeCun对Meta大概值300亿美元,是他新上司28岁的Alexandr Wang的两倍。
但这次,扎克伯格选择了“群体思维”,而非“AI教父”。
毫无疑问,人类对“智能的本质”的探索,仍在继续。当然,少有人可以断言Yann LeCun是否正确。也许,LLM拥护者是对的。但事实是,这门科学尚无定论,而围绕新技术的“共识”形成得如此之快,这本身就值得我们停下来深思。如果连AI领域最聪明的大脑都无法对“什么是智能”达成一致,那么要预测这场大戏将如何收场,恐怕更是难上加难。
参考资料:
https://x.com/gen_intuition/status/1996638738777002210?s=20
本文由主机测评网于2026-03-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260327840.html