
2025年12月初,在美国加利福尼亚州圣地亚哥举办的NeurIPS(神经信息处理系统)大会上,一场炉边对话成为焦点。
神经网络奠基人、2024年诺贝尔物理学奖得主Geoffrey Hinton,与Google首席科学家、Gemini模型联合负责人及TPU架构师Jeff Dean,共同回顾了人工智能从实验室走向全球亿级用户的关键历程。
对话核心围绕一个根本性问题展开:
现代人工智能为何能够从学术研究迅速转化为服务数十亿用户的实用技术?
从AlexNet在家庭卧室中依靠两块GPU进行训练,到Google在餐巾纸上演算TPU的算力需求;从学术界的小规模实验,到支撑全球亿万级应用的基础设施构建。
这实质上是对AI工业化进程的一次系统性梳理与总结。
他们一致认为,现代AI的飞跃并非依赖单一技术奇迹,而是算法、硬件与工程实践同时成熟后产生的系统性涌现。强大的算法必须与坚固的基础设施深度融合,才能实现真正的规模化应用。
沿着时间轴线,可以梳理出三个至关重要的演进阶段:
理解这条发展路径,便能洞察当今AI技术形态背后的逻辑。
Geoffrey Hinton指出,现代AI的真正转折点并非出现在某篇学术论文中,而是发生在他的学生Alex的卧室里:两块NVIDIA GPU板卡插入家用电脑,用于训练图像识别模型。甚至电费都由家人承担。
那是在2012年的ImageNet图像识别竞赛中。
当时其他团队大多采用手工特征提取方法,而Hinton及其学生团队则使用了深度神经网络。他们的模型参数数量超出对手十倍,算力需求也高出数倍,最终以显著优势的准确率获胜。AlexNet由此确立了深度学习在计算机视觉领域的统治地位。
这场胜利证明了一个关键事实:缺乏足够的计算能力,任何精巧的模型结构都仅是空中楼阁。
Jeff Dean的回忆则追溯至更早时期。1990年,他在进行本科论文研究时,便开始探索如何使用并行算法训练神经网络。他尝试了两种策略,即如今所称的数据并行与模型并行,尽管当时这些术语尚未流行。他使用的是一台拥有32个处理器的超立方体计算机。
但问题在于:他分配了32份计算资源,却仅用于训练一个包含10个神经元的微小网络。
“我犯了一个巨大的错误。”Dean坦言。
这次早期失败的经验,使他在二十多年后主导设计Google TPU(张量处理单元)时,从一开始就将算力与模型规模的有效匹配作为核心考量。
二十多年后,类似的算力挑战再次浮现,但这次集中于模型推理( inference)环节。
2013年,Jeff Dean在一次餐巾纸上的粗略计算中意识到:如果未来全球有1亿用户每天使用语音助手服务,每人进行3分钟语音交互,若采用当时的模型进行部署,仅此一项应用就需要谷歌将全球服务器总量翻倍。
这是一个无法忽视的物理成本问题。
他没有等待预算审批会议。直接找到了当时谷歌的首席财务官Patrick Pichette,并强调:“我们必须立即开始自主研发硬件。”
TPU项目由此启动。2015年,第一代TPU正式推出,专注于高效推理而非模型训练。其推理能效比同期CPU和GPU高出30至80倍。直到2017年的TPU v2,谷歌才开始在自研硬件上大规模训练复杂模型。
这标志着一条垂直整合的技术路线。十年后的今天,TPU已演进至第七代。Pathways系统使得一个Python进程能够统一调度分布在不同城市数据中心的数万颗TPU芯片,犹如操作一台单一的超级计算机。
与此同时,基于NVIDIA GPU的生态路线也在持续演进。
从AlexNet时代的两块GPU板卡,到2023年的H100、2024年的H200,以及2025年开始交付的B200,NVIDIA GPU依然支撑着OpenAI、Meta等公司的前沿模型训练。值得注意的是,AI基础设施已呈现多元化格局:例如Anthropic同时在AWS的Trainium芯片和Google TPU上分配训练任务,各家厂商都在探寻最适合自身需求的技术路径。
两种路线各具优势:
NVIDIA GPU生态开放、适配性强,使得创业公司和研究人员都能便捷获取AI算力;
定制化芯片如TPU、Trainium则为特定工作负载深度优化,在能效比和总体拥有成本上具备独特价值。
从卧室中的两块GPU板卡,到覆盖全球的AI算力网络,AI突破的第一步并非理解自然语言或生成内容,而是获得足以完成模型训练的计算资源。
现代AI能够实现大规模应用,并非源于某个孤立的天才创意,而是三条关键技术曲线在2017年至2023年间密集交汇、共同作用的结果:
从AlexNet到Transformer,其核心进步并非模型变得更“智能”,而是变得更容易规模化扩展。
卷积神经网络(CNN)虽擅长处理图像,但其参数量通常与网络深度成正比,难以无限扩展;
循环神经网络(RNN)能处理序列数据,但必须按顺序逐个处理 token,计算效率低下。
Transformer架构的革命性在于:它将序列的顺序处理转变为完全并行处理。所有输入token同时参与计算,这不仅大幅提升了速度,而且能够充分利用GPU/TPU的大规模并行计算能力。
在Jeff Dean看来,在达到相同准确率的前提下,Transformer所需的计算量可比传统的LSTM网络减少10至100倍。这并非细微优化,而是使大规模模型训练从“理论可能”转变为“工程可行”的关键跃迁。
Geoffrey Hinton最初对此持怀疑态度。他认为这种“保存所有状态”的设计机制与人类大脑的工作方式不符。
但他后来认识到:核心不在于模仿生物大脑,而在于该架构确实使得Scaling Law(缩放定律)得以成立——模型性能随着规模扩大而可预测地提升。
在2022年ChatGPT公开发布之前,谷歌内部早已存在一个功能完善的聊天机器人,供8万名员工日常使用。从技术角度看,产品化已具备条件,为何未能推向市场?
Jeff Dean解释道,团队当时深受传统搜索业务思维的束缚,过度纠结于回答的绝对准确性与“幻觉”问题,反而忽略了此类模型在非搜索类任务(如创意写作、代码生成、对话交互)上的巨大潜力。
更关键的结构性问题是:当时谷歌内部有三个相对独立的团队在分别训练大模型:Brain团队、Research团队以及DeepMind。每个团队所获得的计算资源都不足以支撑训练顶级模型,且存在一定程度的重复投入与内部竞争。ChatGPT上线一周后,Dean撰写了一份内部备忘录,明确指出:“我们本可以更早实现类似成果,但未能将资源有效整合。”
由此,Gemini项目团队正式成立。计算资源、模型研发与顶尖人才首次被集中调配,统一朝向一个明确的战略目标迈进。
这揭示了一个常见现象:技术突破的瓶颈往往并非源于技术本身,而是组织与管理问题。
AI的落地远不止于模型本身,还需要一整套使其能够高效运行、调试与复用的基础设施工具链:
JAX:允许研究人员使用近乎数学表达式的代码编写模型,提升了研发效率。
Pathways:使得一个Python进程能够调度分布在数万台设备上的数万颗TPU芯片,简化了超大规模分布式训练。
知识蒸馏技术:能够将拥有千亿参数的大型模型压缩至可在手机等边缘设备上运行的轻量级版本。
这些工具的价值不仅在于提升效率,更在于大幅降低了AI应用的准入门槛。借助JAX,研究员无需成为系统编程专家;有了Pathways,工程师无需手动管理成千上万个计算节点;通过模型蒸馏,应用开发者不必让每个功能都依赖云端庞大的计算集群。
为何是这三条曲线至关重要?因为它们构成了一个自我强化的闭环:
Transformer等可扩展算法催生了对于更大规模算力的需求;
满足大规模算力需求推动了组织资源的集中与更高效工具的出现;
更强大的工程工具反过来提升了训练效率与模型性能,支撑起更大规模、更复杂的模型研发。
缺少其中任何一环,AI都难以从实验室原型走向服务全球十亿级用户的产品。
当前,大模型已能够运行并应用于诸多现实场景。那么,下一个阶段需要突破什么?
Jeff Dean与Hinton在对话中不谋而合地指出了三个尚未完全解决的关键方向。这并非单纯追求模型参数量级的扩大,而是三道影响深远的内在门槛:
AI模型规模的持续增长,直接导致了训练与推理成本的急剧上升,以及能耗的飙升。
以Gemini的训练为例,其动用了上万颗TPU芯片。每一次模型迭代升级,都意味着更多的电力消耗、更长的训练时间与更高的财务预算。
Dean指出,尽管谷歌早在2013年就通过自研TPU将推理能效提升了30-80倍,但如今这一问题变得更为严峻。要实现AI的真正普及,不能仅依赖于无休止地堆叠计算资源,而必须从根本上革新训练与部署的方式。
例如,谷歌已将最常用模型的推理精度控制在FP4(4位浮点数)等超低精度格式上运行。其背后的逻辑直白而有效:只要最终输出结果正确,中间计算过程可以适当“模糊化”。
但这仍不足够。Dean认为,下一代专用推理硬件需要在能效比上实现再一个数量级(10倍)的提升。
目前,即使是最先进的模型,其上下文窗口(一次能处理的文本长度)通常也仅限于数百万个token。
Dean分析道,当前模型的理解能力,仍然受限于单次推理所能“看到”的信息量。这好比一个人一次只能翻阅寥寥数页书籍,AI模型同样只能处理一小段信息,然后“遗忘”之前的内容。
Hinton也强调,现有模型尚不具备人类那种长期、连贯的记忆能力。
若要AI真正助力科学发现、复杂系统分析等深层任务,它必须能够一次性处理更深厚、更连贯的信息体,例如整部教科书、全年度的财务报告,或上百篇相互引证的学术论文。
Dean的构想是:让模型能够有效覆盖数十亿乃至万亿token级别的上下文。其挑战核心不在于纯粹的计算速度,而在于如何设计新的架构使模型能够“记得”更深远的内容,并建立更长程的语义关联。
实现这一目标,不仅需要算法层面的创新,甚至需要对芯片中注意力(Attention)计算单元的基础架构进行重新设计。
Hinton最为关注的则是另一个维度:AI是否具备真正的联想与创造能力。
他认为,人类大脑最卓越之处,并非单纯的记忆存储或逻辑推理,而在于能够将表面上毫不相干的概念或领域联系起来。
“训练这些大模型,实质上是在将海量知识压缩进一个相对有限的参数空间内。为了达成这种压缩,模型必须自发地发现不同事物之间隐藏的共同模式或结构。”Hinton解释道。
这意味着,AI在训练过程中会自动学习到大量人类研究者未曾明确意识到的类比关系。
Hinton举例说:“或许某个模型已经洞察了希腊古典文学叙事结构与量子力学数学表述之间的某种深层共性。而人类领域的专家可能从未将这两个领域并列思考。”
一种普遍批评认为AI仅是模仿,缺乏真正的创造力。
Hinton对此不予认同:将相距遥远的概念进行有意义的连接,这本身就是创造性思维的核心。Dean也赞同这一观点,并指出这将是AI下一阶段的关键应用方向:赋能科学研究,发现跨学科、跨领域的隐秘联系,从而加速突破性创新的产生。
这三道门槛分别卡在不同的层面:能效是物理世界与经济的硬约束,记忆是系统架构的能力边界,创造则是认知与智能的上层表现。
但它们并非彼此孤立:
跨越这些门槛,需要的不仅是短期的工程优化,更是对基础研究的长期投入与技术积累。
Dean在对话中反复提及一个事实:谷歌今日所依赖的众多核心技术,从互联网基础协议到定制化芯片架构,其根源大多可追溯至数十年前看似“无用”的学术探索。深度学习的爆发性增长,并非因为某天突然诞生了一个全新想法,而是许多始于二三十年前的、一度未被重视的研究线索,在特定条件下同时成熟并产生了协同效应。
AI的未来不能仅仅依赖于持续投资扩建数据中心,同样必须保障对底层原理与前沿探索的持续性研究投入。
从卧室中的GPU板卡,到谷歌遍布全球的数万颗TPU算力网络;从一度被学术会议拒稿的模型压缩论文,到如今端侧部署的标配技术;从少数精英的研究项目,到服务全球十亿级用户的成熟产品。
现代AI的成功,并非依赖某个瞬间的“顿悟”或单一爆点,而是长期持续聚焦于几个关键维度:算法必须具备实际落地潜力、计算硬件必须能够提供足够支撑、研究环境必须能够吸引并留住顶尖人才。
决定性时刻并非只有一个,而是由众多事件、决策与技术突破在时间线上共同推进,最终将AI从学术构想转变为可大规模应用的现实产品。
正如Hinton所总结的,大模型的本质,是在训练过程中将浩瀚知识压缩进有限参数空间,而实现这种高效压缩的关键,在于发现看似无关事物之间的共通规律。
Dean则补充道,AI的下一步突破,其核心可能不在于提供更精确的答案,而在于极大地扩展其“理解”的广度与深度——即处理更复杂、更宏大信息体的能力。
归根结底,最重要的或许不是模型参数量的无限增长,而是能否将每一次技术突破,持续转化为惠及全球用户的实用价值与产品体验。
https://www.youtube.com/watch?v=ue9MWfvMylE&t=1483s
https://www.youtube.com/watch?v=9u21oWjI7Xk
https://sdtechscene.org/event/jeff-dean-geoff-hinton-in-conversation-with-jordan-jacobs-of-radical-ventures/
https://www.linkedin.com/posts/radicalventures_the-next-episode-of-radical-talks-drops-this-activity-7406799924111220737-Fph0
https://x.com/JeffDean/status/1997125635626639556?referrer=grok-com
本文由主机测评网于2026-02-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224722.html