近期人工智能领域风起云涌,Meta的FAIR部门遭遇裁员、OpenAI进行资本重组、AWS实施大规模人员优化……这一系列震荡事件揭示出AI产业正从狂热的“无限淘金热”阶段转向残酷的“阵地战”时期。资本开始重新评估投资回报率,科技巨头们在激烈的技术军备竞赛中也不得不严肃审视成本控制与运营效率。
那么,这场“阵地战”究竟是如何引爆的?巨头们手中掌握着怎样的王牌,又背负着哪些历史包袱?
知名科技播客《Acquired》近期推出的一期专题节目,以谷歌的AI发展历程与战略布局为主线,巧妙穿插了其他AI巨头的崛起故事,几乎涵盖了当今人工智能领域所有关键人物,为听众系统梳理出一部简明扼要的AI进化史。
播客地址: https://www.acquired.fm/episodes/google-the-ai-company
本文将沿着《Acquired》这期节目的叙事脉络,深入挖掘节目中提及的两部关键著作《In the Plex》与《Genius Makers》(中文版《深度学习革命》)中的精彩细节,结合当前AI生态现状,对人工智能的发展历程与大公司战略博弈进行一次深度复盘与解析。
与许多后入局者不同,人工智能并非谷歌在某个发展阶段才“转型”追逐的风口,而是从公司创立之初就刻入骨髓的核心理念。
1998年,谷歌正式成立。联合创始人拉里·佩奇(Larry Page)始终将谷歌视为一家人工智能公司,这很大程度上源于其父亲——一位早期就专注于机器学习与人工智能研究的计算机科学教授的深刻影响。
让我们将时光倒回42年前:1956年。在美国达特茅斯学院,一群满怀激情的科学家们正式提出了“人工智能(Artificial Intelligence)”这一术语。他们乐观地预言,具备人类智慧的机器将在不久的将来诞生。
然而,现实很快给过于乐观的预测泼了冷水。受限于计算能力不足、数据稀缺以及理论瓶颈,许多承诺未能兑现,AI研究的资金投入与学术热情急剧降温,进入了长达数十年的两次“AI寒冬”。
在那个AI普遍被视为“浪费时间”的时期,拉里·佩奇父亲的坚持显得格外具有反叛精神。
拉里·佩奇在2000年就曾断言:“人工智能将是谷歌的终极形态……如果我们能打造出终极搜索引擎,它将理解网络上的一切信息……这本质上就是人工智能……我们正在朝这个方向全力迈进”。
甚至可以说,谷歌赖以起家的PageRank算法,其运用统计方法对网页进行排序的核心思想,早已带有早期人工智能理念的印记。
“数据压缩即意味着理解”
谷歌AI传奇的一个重要起点,始于2000年末或2001年初的一次午餐闲聊。早期工程师乔治·赫里克(George Herrick)向同事本·戈麦斯(Ben Gomes)及诺姆·沙泽尔(Noam Shazeer)提出了一个颇具洞见的理论:在技术上,高效压缩数据等同于理解数据。其核心在于,能够无损恢复信息的高效压缩过程,本身就蕴含了对信息本质的深层认知。
这一想法吸引了天才工程师诺姆·沙泽尔。在谷歌当时自由的工程师文化氛围下,赫里克和沙泽尔决定全力探索语言模型与机器理解。尽管并非所有人都看好,但杰夫·迪恩(Jeff Dean)等人的支持给了他们坚定的信心。
他们的研究深入自然语言的概率模型领域,即预测在给定词语序列之后,下一个最可能出现的词序列是什么。这正是现代大语言模型“Next Token Prediction”思想的早期雏形。
这项研究的首个直接应用成果,便是谷歌搜索中极为实用的“您是不是要找”(Did you mean)拼写纠错功能,由沙泽尔主导开发。它不仅显著改善了用户体验,还通过减少错误查询,为谷歌节省了大量无效计算资源。
随后,他们构建了一个在当时看来规模相当“庞大”的语言模型,并将其命名为PHIL(概率分层推理学习器)。这个模型很快在谷歌的核心业务中扮演了关键角色。
2003年,PHIL被杰夫·迪恩用于快速实现AdSense系统,通过理解网页内容来精准匹配广告。AdSense几乎一夜之间为谷歌带来了数十亿美元的新增收入。
到了2000年代中期,据估计PHIL消耗了谷歌数据中心整体计算资源的15%,足见其重要性与计算强度。
机器翻译与神经网络浪潮
谷歌对语言理解能力的不懈追求,自然延伸至机器翻译领域。
2007年前后,由弗朗茨·奥赫(Franz Och)领导的谷歌翻译团队构建了一个基于海量N-gram(词语组合)的语言模型,该模型在一个包含两万亿单词的谷歌搜索索引子集上进行了训练。团队凭借这个巨型N-gram模型赢得了DARPA竞赛,但模型效率极低,翻译一句话需要长达12小时。
杰夫·迪恩再次介入,他敏锐地意识到翻译过程可以高度并行化。利用谷歌强大的分布式计算平台,他与团队合作在数月内将翻译时间缩短至100毫秒,成功将其投入实际生产。这成为谷歌第一个部署在生产环境的“大型”语言模型,进一步激发了将此类技术应用于更多场景的想象力。
与此同时,另一股更具革命性的思潮也开始悄然叩响谷歌的大门:神经网络与深度学习。这得益于塞巴斯蒂安·特伦(Sebastian Thrun)的引荐。
这位前斯坦福AI实验室(SAIL)主任于2007年加入谷歌,在成功主导“Ground Truth”地图项目后,他说服拉里·佩奇和谢尔盖·布林邀请顶尖学者以兼职形式参与谷歌的研究工作。
2007年12月,塞巴斯蒂安·特伦邀请了当时在多伦多大学、相对寂寂无名的机器学习教授杰弗里·辛顿(Geoff Hinton)来到谷歌进行技术讲座。
辛顿是神经网络研究的长期倡导者,他和他的学生(包括杨立昆)坚信,随着计算能力的飞跃式提升,构建更深层次的神经网络(即“深度学习”)将能释放其巨大潜力。
辛顿的讲座在谷歌内部引发了强烈反响,特别是让杰夫·迪恩等人看到了现有语言模型工作的全新可能性。随后,辛顿以顾问乃至“实习生”的身份开始与谷歌合作,将深度学习的火种正式带入了这家未来的AI巨头。
值得一提的是,辛顿等人所倡导的神经网络,在当时正处于被学术界边缘化的低谷期。如《Genius Makers》所述,自70年代马文·明斯基对“感知机”的著名批判以来,AI领域的主流已转向“专家系统”。然而专家系统在现实世界的复杂性面前屡屡碰壁,导致了AI的第二次寒冬。
而谷歌的PageRank和机器翻译所依赖的统计方法,本身就是对僵化专家系统的一种反叛。辛顿的到来,预示着一种基于数据、统计和仿生计算的更深刻范式,即将与谷歌强大的工程能力相结合。
到2011年,谷歌不仅在传统机器学习和大规模系统工程方面积累了深厚实力,也开始接触并拥抱深度学习这一即将掀起滔天巨浪的新思潮。顶尖人才的引进、内部项目的成功以及对前沿理论的开放态度,共同为谷歌下一阶段的AI爆发奠定了坚实的基础。
辛顿带来的深度学习火种,很快在谷歌内部找到了适宜生长的沃土。海量数据和强大的计算基础设施,恰恰是神经网络研究所需的关键要素。
正是在这一背景下,谷歌内部一个专注于将深度学习推向新高度的核心团队应运而生,并迅速取得了令世界瞩目的突破。
谷歌大脑(Google Brain)诞生
随着塞巴斯蒂安·特伦全职加入谷歌并创建Google X部门,他将自己在斯坦福AI实验室的继任者、另一位杰出学者吴恩达(Andrew Ng)也引入谷歌担任兼职。
值得一提的是,近日,英伟达市值突破5万亿美元,而吴恩达及其团队早在2009年的一篇论文中就前瞻性地指出了GPU对AI研究的极端重要性。
论文标题:Large-scale Deep Unsupervised Learning using Graphics Processors
论文地址:https://dl.acm.org/doi/10.1145/1553374.1553486
回到正题。2010至2011年间的一天,吴恩达在谷歌园区偶遇杰夫·迪恩,两人交流起各自在语言模型和深度学习方面的想法。他们很快意识到,结合辛顿的理论与谷歌无与伦比的并行计算能力,或许可以真正构建一个前所未有的大规模深度学习模型。
这个想法很快得到了全力推动。2011年,吴恩达、杰夫·迪恩以及神经科学博士格雷格·科拉多(Greg Corrado)共同发起了Google X内部的第二个官方项目:谷歌大脑。他们的目标明确:在谷歌的基础设施上,构建一个真正“深”且“大”的神经网络。
为了支撑这个庞大的计算任务,杰夫·迪恩主导开发了一个名为DistBelief的新分布式计算系统。
DistBelief的设计颇具争议,它允许不同计算节点异步更新模型参数,这意味着更新可能基于“过时”的信息。这与当时主流研究认为同步更新对保证模型收敛至关重要的观点相悖。
许多人,包括谷歌内外的专家,都对此表示怀疑(Disbelief,这也是系统名称的双关含义)。然而,杰夫·迪恩的工程直觉再次被证明是正确的,DistBelief不仅可行,而且效率极高。
石破天惊的“猫论文”
有了强大的计算平台,谷歌大脑团队迅速展开了一项里程碑式的实验。他们构建了一个包含九个层级的深度神经网络,并利用DistBelief系统,在1000台机器上的16000个CPU核心上进行训练。训练数据是1000万帧从未经人工标注的YouTube视频中随机抽取的。
实验结果震惊了世界。这个神经网络在没有被告知什么是“猫”的情况下,通过无监督学习,自主地在最高层网络中形成了一个“猫神经元”:这个神经元会对包含猫脸(特别是正面视角)的图像产生强烈兴奋,而对其他图像则反应平淡。
这项成果,后来以论文形式发表,但更广为人知的名字是“猫论文”(Cat Paper)。
论文标题:Building High-Level Features Using Large-Scale Unsupervised Learning
论文地址: https://arxiv.org/abs/1112.6209
“猫论文”的意义极其深远。首先,它证明了大规模深度神经网络具备在没有人类监督的情况下,从海量原始数据中自主学习有意义的高级特征的能力。其次,它验证了谷歌自研的分布式系统能够有效支撑这种规模的训练。
对于谷歌内部而言,这次成功极具说服力。据时任高管的桑达尔·皮查伊(Sundar Pichai)回忆,看到“猫论文”是他记忆中谷歌AI故事的关键转折点之一。在一次TGIF(Thank God It"s Friday,谷歌内部周五例会)上展示该成果后,许多员工表示“一切都改变了”。
更重要的是,“猫论文”直接催生了巨大的商业价值。当时YouTube面临着视频内容理解不足的难题,用户上传的标题和描述往往不足以支撑有效的搜索和推荐。谷歌大脑的技术使得机器能够“看懂”视频内容,极大地提升了YouTube的推荐精度和用户粘性,也为后续的内容审核、版权识别等关键功能奠定了基础。
可以说,“猫论文”开启了YouTube乃至整个社交媒体和内容平台的“算法推荐时代”,间接驱动了此后十年数百亿乃至数千亿美元的产业价值。
AlexNet的横空出世
几乎与“猫论文”同时期,另一项来自学术界的突破则彻底改变了深度学习的硬件基础。
2012年,在多伦多大学,杰弗里·辛顿指导的两名学生亚历克斯·克里泽夫斯基(Alex Krizhevsky)和伊利亚·苏茨克弗(Ilya Sutskever),凭借他们设计的深度卷积神经网络AlexNet,在著名的ImageNet图像识别竞赛中取得了“大爆炸”式的成功。
ImageNet竞赛要求算法识别数百万张已标注图片中的物体。此前数年,最优算法的错误率仍在25%以上。而AlexNet横空出世,将错误率一举降至15.3%,比前一年最好的结果提升了超过40%。
这一飞跃的关键,在于克里泽夫斯基和苏茨克弗创造性地使用了两块当时主要用于游戏图形处理的NVIDIA GeForce GTX 580 GPU进行并行计算训练。他们意识到GPU的大规模并行计算架构天然适合神经网络运算,并通过NVIDIA的CUDA编程语言重写了算法。
AlexNet的胜利不仅宣告了深度学习时代的全面到来,更确立了GPU作为AI计算核心硬件的地位。正如NVIDIA CEO黄仁勋所言,这是AI的“大爆炸时刻”。这一事件也直接将NVIDIA从一家PC游戏配件制造商,推上了日后AI浪潮之巅,成为全球市值最高的公司之一。
DNN Research收购大战
AlexNet的巨大成功让其背后的三人团队身价倍增,他们迅速成立了一家名为DNN Research的公司,这家公司没有实际产品,唯一的资产就是这三位顶尖的AI研究大脑。
一场围绕这家初创公司的激烈竞购战随之展开。辛顿决定采用一种类似拍卖的方式来决定公司的归属,以期获得公平的市场价值。
最初百度出价1200万美元,随后,谷歌、微软以及当时还名不见经传的初创公司DeepMind都加入了竞标。竞价在内华达州太浩湖哈里斯赌场酒店(NIPS/NeurIPS会议期间)辛顿的房间里激烈进行。
DeepMind因资金不足早早退出,最终,竞价在谷歌和百度之间展开,一路飙升。当价格达到4400万美元时,考虑到谷歌的研究环境、资源以及已有的人脉关系,辛顿团队决定停止竞价,接受了谷歌的收购要约。
据说,他们三人最初计划平分股权,但克里泽夫斯基和苏茨克弗主动提出让导师辛顿占40%,他们各占30%。
这次收购被认为是谷歌AI历史上最划算的交易之一。它不仅将AlexNet的核心团队整体并入谷歌大脑,进一步巩固了谷歌在深度学习领域的领导地位,而且这支团队后续为谷歌创造的价值被认为远超收购价格,甚至足以覆盖Google X部门所有其他“登月项目”的投入。
Facebook与FAIR实验室的建立
AlexNet的惊人表现和谷歌对DNN Research的迅速收购,点燃了科技巨头对深度学习人才的渴望。谷歌并非唯一的买家,马克·扎克伯格也敏锐地意识到了这场风暴。
正如《深度学习革命》中所述,扎克伯格意识到,谷歌用来优化YouTube推荐和广告的技术,同样可以用来改造Facebook的核心产品:动态消息(News Feed)。他将AI视为“下一个大事件”,并决心迅速建立Facebook自己的顶尖AI实验室。
扎克伯格的目标非常明确:他需要一位像杰弗里·辛顿一样的领军人物。这个人选就是辛顿的前博士后、当时在纽约大学任教的杨立昆(Yann LeCun)。杨立昆是深度学习领域的另一位“教父”,尤其以其在卷积神经网络(CNNs)上的开创性工作而闻名。
2013年,扎克伯格亲自致电杨立昆,力邀其加盟,并给出了非常有诚意的让步:FAIR(Facebook AI Research) 实验室可以设在纽约,杨立昆本人也可以保留在纽约大学的教职。
更重要的是,杨立昆坚持FAIR必须采用开放的研究模式,即像学术界一样公开发表论文。他认为这是吸引和留住顶尖人才的唯一途径,因为顶尖学者渴望的是同行认可和推动科学进步,而非仅仅是高薪。扎克伯格同意了这一点,这与谷歌大脑当时逐渐形成的开放研究文化不谋而合。
如我们所见,FAIR为Meta(原Facebook)提供了源源不断的核心技术、开源工具(PyTorch)和前沿探索。
FAIR通过其Llama系列模型为Meta确立了独特的战略地位。从Llama 1到Llama 3,FAIR开发了行业领先的开源大语言模型。 坚持开源策略,使Meta成为开放AI生态的领导者,对抗了OpenAI和谷歌的闭源模型。
但在AI竞争日益残酷的今天,从限制论文发表到裁员,FAIR也不可避免地迎来了“理想主义”的退潮,开始直面成本与效率的残酷考验。
在收购了DNN Research的核心团队后,谷歌在深度学习领域的领先地位似乎更加稳固。然而,AI的版图远未定型。接下来的几年,谷歌通过一次世纪收购进一步扩张了其AI帝国,但也同时在内部启动了一场深刻的硬件革命以应对算力挑战。
与此同时,其强大的“人才引力场”也开始显现离心力,催生了日后最强劲的竞争对手。
DeepMind与谷歌的联姻
就在谷歌大脑高歌猛进之时,大西洋彼岸的伦敦,一家名为DeepMind的初创公司正以其“解决智能,再用智能解决一切”的宏大愿景吸引着特定圈层的注意。
由神经科学博士、前游戏开发者戴密斯·哈萨比斯(Demis Hassabis)、谢恩·莱格(Shane Legg)以及穆斯塔法·苏莱曼(Mustafa Suleyman)共同创立的DeepMind,目标直指通用人工智能(AGI),这在当时被许多人视为“疯子般的边缘想法”。
DeepMind早期获得了彼得·蒂尔(Peter Thiel,PayPal联合创始人、Facebook首位外部投资人)和埃隆·马斯克的投资。随着DeepMind在强化学习(尤其是在玩Atari游戏上取得突破)等领域展现出惊人潜力,它很快吸引了科技巨头的目光。
2013年末,扎克伯格率先提出收购,据传报价高达8亿美元,但因无法满足DeepMind保持独立研究和设立外部监督委员会的要求而未能成功。埃隆·马斯克也提出用Tesla股票收购,意图将其技术用于自动驾驶,同样与DeepMind的核心目标不符。
关键的转折点来自拉里·佩奇。他对AI的长期愿景与哈萨比斯一拍即合,相比扎克伯格和马斯克,佩奇更能理解并愿意支持DeepMind保持相对独立,专注于AGI研究。谷歌内部已有谷歌大脑负责产品应用,DeepMind可与之互补。此外,谷歌拥有的庞大计算资源对DeepMind也是巨大的吸引力。
最终,谷歌在2014年初以约5.5亿至6.5亿美元的价格成功收购DeepMind。这笔收购在当时被视为谷歌的巨大胜利,但也埋下了日后内部文化冲突的种子。
DeepMind长期与谷歌大脑在公司内部争夺资源和主导权,这种内耗在一定程度上拖慢了谷歌的脚步。而当年被谷歌重金“买下”的联合创始人穆斯塔法·苏莱曼,在经历了内部的边缘化后最终离开,并极具戏剧性地在2024年加入了谷歌的死敌微软,成为了其消费者AI业务的负责人,调转枪口与老东家正面对垒。
收购后,DeepMind迅速展现价值,不仅在AlphaGo项目中击败世界围棋冠军李世石,震惊世界,还通过优化算法将谷歌数据中心的冷却能耗降低了40%。
然而,这次收购也彻底激怒了马斯克,为日后OpenAI的诞生埋下了最重要的伏笔。
从依赖GPU到自研TPU
就在谷歌将DeepMind收入囊中,进一步巩固其在AI研究领域地位的同时,其内部也正悄然进行一场硬件革命。
AlexNet的成功已经证明了GPU在深度学习训练中的巨大优势。亚历克斯·克里泽夫斯基加入谷歌后,惊讶地发现公司内部仍主要依赖CPU进行模型训练,甚至自己买了GPU偷偷使用。
虽然谷歌内部早有人提出使用GPU,但基础设施团队出于维护同构集群简单性的考虑一直有所抵触。然而,随着深度学习应用(如语音识别)的需求爆炸性增长,仅仅依赖CPU已难以为继。
杰夫·迪恩甚至估算,如果所有Android用户每天使用几分钟语音识别,谷歌就需要将现有数据中心规模翻倍才能支撑。他向负责基础设施的乌尔斯·霍尔茨勒(Urs Hölzle)直言:“我们需要再造一个谷歌。”
面对如此严峻的算力瓶颈和对外部供应商(主要是NVIDIA)日益增长的依赖,谷歌决定另辟蹊径:自研专门用于神经网络计算的芯片。
基于乔纳森·罗斯(Jonathan Ross)等工程师在20%自由时间项目中使用FPGA(现场可编程门阵列)的探索,谷歌正式立项开发ASIC(专用集成电路),即TPU(Tensor Processing Unit)。
TPU的核心设计理念是针对神经网络中大量的矩阵(张量)运算进行优化,并大胆采用了低精度计算。通过牺牲一定的计算精度(例如,只保留较少的小数位数),可以在同样的功耗和芯片面积下,大幅提升计算吞吐量。这对于容错性相对较强的神经网络模型来说是完全可行的。
TPU项目推进神速,15个月内完成从设计到部署,并巧妙设计成可替换服务器硬盘的形态。TPU在AlphaGo对决中首次亮相并取得成功,此后成为谷歌AI基础设施的核心竞争力,为其提供了显著的成本优势和战略自主权。
OpenAI的诞生与使命
谷歌对DeepMind的收购,以及其在AI人才和算力上的绝对优势,让埃隆·马斯克越发警惕。他担心谷歌会在AGI研发上形成垄断,并可能带来不可控的风险。
这种担忧促使他在2015年夏天,联合时任Y Combinator总裁的山姆·奥尔特曼(Sam Altman),在硅谷心脏地带的Rosewood酒店组织了一场旨在“策反”顶尖AI研究员的晚宴。
他们的目标是说服在谷歌和Facebook等巨头工作的研究人员,加入一个全新的、非盈利的、旨在为全人类福祉而开放研究AGI的实验室。
然而,面对谷歌提供的优厚待遇、顶级同事和无限资源,绝大多数受邀者都表示无法被撼动。唯一的例外是伊利亚·苏茨克弗,这位AlexNet的共同作者、已在谷歌大脑做出杰出贡献的研究员,被OpenAI的开放、非盈利和“造福人类”的使命深深吸引。尽管杰夫·迪恩亲自出面提供了极具竞争力的反聘方案(据传是双倍薪酬),苏茨克弗还是毅然决定加入这个前途未卜的新生组织。
他的加入起到了关键的示范效应,吸引了包括达里奥·阿莫代伊(Dario Amodei)在内的一小批顶尖人才离开谷歌,构成了OpenAI最初的核心技术力量。
从事后看,这段“出走”充满了历史的回旋镖。伊利亚·苏茨克弗,这位被“造福人类”使命感召的联合创始人,在多年后成为了那场罢免山姆·奥尔特曼董事会政变的关键人物,最终在内斗后黯然离开了公司。而与他一同离开谷歌的达里奥·阿莫代伊,后来也因对公司安全和商业化路径的根本分歧,带领一批核心成员出走,创办了OpenAI的直接竞争对手Anthropic。
OpenAI于2015年底正式宣告成立,获得了来自马斯克、山姆·奥尔特曼等人的10亿美元初始承诺捐款(尽管实际到位的远少于此)。
在最初几年,OpenAI的研究路径很大程度上追随DeepMind,专注于在复杂的游戏环境(如Dota 2、Atari游戏)中训练AI智能体,以此展示其实力并推动AGI研究。
当谷歌同时拥有谷歌大脑和DeepMind两大顶尖AI实验室,并掌握了自研芯片TPU这一算力利器时,它在全球AI领域的领导地位似乎已无可撼动。
然而,历史的吊诡之处在于,一项源自谷歌内部、本意是为了改进机器翻译的研究成果,最终却成为了“潘多拉魔盒”,不仅为竞争对手提供了赶超的“奇点”,也迫使谷歌自身陷入了一场前所未有的“创新者窘境”保卫战。
这便是Transformer的故事,它开启了AI的新纪元。
Attention Is All You Need
2017年,那篇堪称伟大的论文出现在arXiv上:Attention Is All You Need,署名是来自谷歌大脑的八位研究员。
论文标题:Attention Is All You Need
论文地址: https://arxiv.org/abs/1706.03762
这篇论文旨在解决当时主流用于处理序列数据(如语言)的循环神经网络(RNN)及其变种长短期记忆网络(LSTM)所面临的两个核心难题:难以捕捉长距离依赖关系,以及计算过程难以并行化。RNN/LSTM在处理句子时需要按顺序逐词进行,这限制了利用现代硬件进行大规模并行训练的效率。
论文提出了一种全新的神经网络架构:Transformer,其核心是一种被称为“自注意力”的机制。自注意力机制允许模型在处理序列中的某个词时,同时“关注”到序列中所有其他词与该词的关系及其重要性,而不受距离远近的限制。这种基于注意力的计算过程可以高度并行化,完美契合了GPU和TPU等并行计算硬件的优势。
Transformer架构极其简洁、优雅,甚至让一些研究者最初怀疑“这不可能有效,太简单了”。但在谷歌内部,由诺姆·沙泽尔等核心人物的深度参与和优化下,基于Transformer的模型在机器翻译任务上很快就超越了当时最先进的基于LSTM的系统。
更令人兴奋的是,研究人员发现Transformer模型展现出惊人的“可扩展性”:随着模型规模增大、训练数据增多,其性能似乎可以持续、可预测地提升。
这预示着一种全新的AI范式:“更多数据 + 更大模型 + 更多算力 ≈ 更好的智能”,正如后来里奇·萨顿(Rich Sutton)在其著名文章《苦涩的教训》中所总结的那样。
谷歌内部迅速认识到了Transformer的重要性,并基于它开发了BERT等模型,显著提升了谷歌搜索理解用户查询意图的能力,进一步巩固了其核心业务。
然而,遵循其一直以来的开放研究传统,谷歌允许这篇论文公开发表。这一决定,虽然促进了整个AI领域的进步,但也无异于将开启下一个时代的“钥匙”交给了全世界——包括其潜在的竞争对手。
更具讽刺意味的是,在接下来的几年里,这篇论文的全部八位作者因各种原因相继离开了谷歌,其中就包括后来回归并成为Gemini技术负责人的诺姆·沙泽尔。
OpenAI的转型与微软联盟
当Transformer论文发表时,OpenAI正处于关键的十字路口。
埃隆·马斯克由于在公司发展方向(特别是与Tesla自动驾驶的结合)、控制权以及对进展速度的不满,于2018年初与OpenAI分道扬镳,并撤回了后续的资金支持。这使得原本就资金不算充裕的OpenAI(10亿美元承诺仅到位约1.3亿)陷入了生存危机。
与此同时,OpenAI的研究团队敏锐地捕捉到了Transformer架构的巨大潜力。他们意识到,基于Transformer构建大规模预训练语言模型(即GPT系列)是一条充满希望的技术路径。然而,训练这些巨型模型需要天文数字般的计算资源,这远非一个非盈利组织所能负担。
在资金和算力的双重压力下,山姆·奥尔特曼做出了一个改变OpenAI命运的决定:寻求商业合作并调整组织结构。
2018年,微软同意向OpenAI投资10亿美元(部分为Azure云信用额度),以换取其技术的优先使用权和一定的商业化独占权。为了促成这笔交易,OpenAI进行了一次颇具争议的重组,设立了一个“利润上限”的营利性子公司OpenAI LP,由非盈利的母公司OpenAI Inc.控制。
最近,OpenAI宣布的重大资本重组,当年那个为生存而设立的“利润上限”子公司,如今已演变为估值超1300亿美元的“公开利益公司”(OpenAI Group PBC)。而最初的非盈利母公司,现在成为了“OpenAI基金会”,仅凭其持有的26%股权,就有望成为“历史上资源最充足的慈善组织之一”。
说回 OpenAI和微软的合作,这次“联姻”对双方都意义重大。OpenAI获得了续命的资金和进行大规模模型训练所必需的Azure云计算资源;而微软则通过这笔在当时看来颇具风险的投资,在AI竞赛的关键时刻绑定了一个潜力无限的技术伙伴,为其后续在AI应用层(如Bing搜索、Office Copilot)的快速布局奠定了基础。
与此形成对比的是,谷歌拥有自己的云平台Google Cloud和自研芯片TPU,在基础设施上完全自给自足。
获得了微软支持后,OpenAI开始全力投入GPT模型的研发。GPT-2(2019年)和GPT-3(2020年)相继发布,模型能力不断提升,尤其GPT-3已经展现出惊人的文本生成和理解能力,开始引发业界广泛关注。
2021年,基于GPT-3的GitHub Copilot发布,成为第一个大规模落地的生成式AI产品,预示着一场生产力革命的到来。
Anthropic的诞生与安全路线
OpenAI与微软的深度绑定及其向“利润上限”模式的转变,虽然解决了生存问题,但也导致了其内部关于AI安全和商业化路径的深刻分歧。
这种紧张关系在2020年底达到了顶点。时任OpenAI研究副总裁、同样出身谷歌大脑的达里奥·阿莫代伊,对他所认为的公司日益增长的商业化倾向和对安全问题的忽视感到越发不安。
2021年初,达里奥·阿莫代伊带领一批OpenAI的核心研究人员集体出走,创立了Anthropic。这家新公司明确将“AI安全”置于首位,并以开发“合宪AI”(Constitutional AI)的独特方法论而闻名,并且 Anthropic确实至今一直在发表AI安全相关的博客文章。
Anthropic随后获得了谷歌等公司的投资,成为AI领域不可忽视的新力量,其产品Claude也成为ChatGPT和Gemini的主要竞争对手之一。
Anthropic的成立,不仅标志着AI顶尖人才的再次分流,也正式开启了AI领域关于发展路径(追求能力 vs 确保安全)的“路线之争”。
ChatGPT横空出世引爆全球
2022年11月30日,一个看似普通的研究预览发布,却意外地点燃了全球对生成式AI的热情。
OpenAI推出了基于GPT-3.5模型的聊天界面:ChatGPT。原本只是内部为了测试模型能力、或是为了赶在竞争对手Anthropic发布类似产品前推出的一个简单应用,却凭借其流畅自然的对话体验和强大的通用能力迅速引爆网络。一周用户破百万,两个月破亿,ChatGPT成为史上用户增长最快的消费级应用,其品牌名几乎成了AI聊天的代名词。
ChatGPT的巨大成功,震醒了沉睡的巨人谷歌。谷歌高层迅速意识到,这种直接提供答案的交互模式,对其赖以生存的核心搜索业务构成了直接的、生存级别的威胁。
2022年12月,CEO桑达尔·皮查伊在公司内部拉响了“Code Red”(红色警报)。这意味着谷歌必须将AI从过去十年作为“维持性创新”来改进现有产品的策略,紧急调整为应对“颠覆性创新”的战时状态。
让局势更加严峻的是,微软迅速抓住了机会。2023年初,微软宣布向OpenAI追加100亿美元投资,并高调发布了由OpenAI技术驱动的新版Bing搜索引擎和Edge浏览器。
萨提亚·纳德拉(Satya Nadella)公开宣称:“搜索的新时代从今天开始……我们要让谷歌跳舞”。谷歌最强大的老对手,借助其“盟友”的颠覆性技术,卷土重来,直指谷歌的心脏地带。
此时,谷歌内部并非没有类似的技术储备。诺姆·沙泽尔早在离开前就曾开发过一个名为Mina的内部聊天机器人,后来演变为LaMDA模型。
然而,出于对安全性、准确性、品牌声誉风险的担忧,以及更深层次的商业模式冲突(AI直接给答案会减少用户点击广告的机会,动摇搜索广告这一现金牛业务)和潜在的法律风险等多重因素考量,谷歌一直未能将这些内部原型产品推向大众市场。
相比之下,OpenAI作为挑战者,没有这些历史包袱,可以选择“快速行动,打破陈规”。
All in Gemini背水一战
面对内忧外患,谷歌的初步反击显得有些仓促。
2023年2月,谷歌匆忙推出了基于LaMDA模型的聊天机器人Bard。然而,Bard在发布演示中就出现了事实性错误,导致谷歌股价大跌。随后的用户体验也普遍反映Bard的能力明显落后于同期基于GPT-3.5乃至后续GPT-4的ChatGPT。
这次挫折促使桑达尔·皮查伊下定决心进行大刀阔斧的改革。2023年中,他做出了两个关键决定:
合并谷歌大脑和DeepMind:结束内部两大AI团队长期并立甚至有所内耗的局面,组建统一的Google DeepMind部门,由戴密斯·哈萨比斯全权领导。这意味着打破了收购DeepMind时关于其独立性的部分承诺,但也显示了整合力量、聚焦目标的决心。
All in Gemini:集中最精英的力量,开发一个单一的、统一的、原生的多模态旗舰模型系列:Gemini。要求谷歌所有产品线都要积极寻找与Gemini整合的机会。这既是为了集中资源打造最强模型,也是利用谷歌的生态优势推广Gemini。
为了确保Gemini项目的成功,谷歌不惜代价。不仅杰夫·迪恩等原谷歌大脑的核心大将与DeepMind团队紧密协作,久未参与一线工作的联合创始人谢尔盖·布林也回归参与模型研发。
同时,谷歌斥资数十亿美元与诺姆·沙泽尔创立的Character.AI达成一项复杂的合作协议,实质上将这位Transformer论文的关键作者之一请回,与杰夫·迪恩共同担任Gemini项目(特别是下一代模型)的技术负责人。
这一系列雷厉风行的举措迅速见效。从2023年底开始,Gemini系列模型以惊人的速度发布并迭代。如今,Gemini 2.5 Pro已是顶尖模型之一,大家对即将发布的Gemini 3.0也充满期待。
谷歌逐步将Gemini整合进搜索(推出AI Overviews功能)、推出独立的Gemini App取代Bard,并在搜索页面尝试引入“AI Mode”。同时,在文生视频(Veo)、文生图(Imagen)、游戏环境生成(Genie)等多模态领域也发布了一系列令人瞩目的技术。
此外,Google DeepMind在AI for science领域取得重大突破。其AlphaFold 2系统在2020年高精度地预测了蛋白质的三维空间结构,解决了困扰生物学界半个世纪的“蛋白质折叠问题”,对生命科学与新药研发具有深远意义。
基于此项贡献,AlphaFold 2核心开发者戴密斯·哈萨比斯、约翰·詹珀(John Jumper)与计算蛋白设计先驱戴维·贝克(David Baker)共同获得了2024年诺贝尔化学奖,以表彰其革命性贡献。
纵观AI发展的波澜壮阔,巨头们在开疆拓土的同时,也背负上了各自沉重的“包袱”。
谷歌手握最好的牌,提出一系列开创性工作,但又受大公司体制的束缚,一度将王牌拱手让人;OpenAI从最初的理想国,到一度分崩离析,再到今天成为最具实力的玩家之一;Meta曾稳坐开源王座,如今也不得不在军备竞赛与成本效益的平衡中艰难变革。
与此同时,中国AI力量也异军突起。DeepSeek一夜成名,Qwen成为新的“源神”,Seed、Kimi等奋力追赶,抢占高地;即梦、可灵等则在多模态的新战场上攻城略地。
浪潮之巅,没有永远的王者。 巨头今日的霸权,随时可能被自身的沉疴所拖垮;后起之秀的威胁,也从未像今天这般迫近。
但无论如何,这场激烈的竞争,连同背后无数科学家的执着探索,正汇聚成一股推动历史进程的强大合力,带领人类走向那个充满未知但值得期待的未来。
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118487.html