AI界「双神会」震撼来袭!NeurIPS 2025一场炉边谈话,图灵奖得主Hinton与谷歌DeepMind首席科学家Jeff Dean罕见同台,首次公开AI革命背后不为人知的秘辛与顿悟瞬间。
NeurIPS 2025那场轰动全球的深度对话,终于解禁完整版录像!
人工智能教父Geoffrey Hinton与谷歌DeepMind领军人物Jeff Dean,这对昔日并肩作战的老友再度聚首,碰撞出无数思想火花。
现场,Hinton抛出了一个令全场屏息的犀利提问——
谷歌是否对当年公开发表Transformer论文感到后悔?
Jeff Dean斩钉截铁地回应,「绝不后悔!因为它为世界带来了革命性的正面影响」。
不仅如此,Hinton首次袒露,自己对Scaling Law的醍醐灌顶,源自Ilya Sutskever的一场演讲。
在这近一小时的畅谈中,两位泰斗回溯了从机器学习萌芽期到如今塑造整个领域的关键突破与棘手挑战。
他们还分享了诸多鲜为人知的趣闻轶事——
从AlexNet在卧室靠两块GPU跑出惊人成绩,到谷歌大脑(Google Brain)蹒跚起步的筚路蓝缕。
对话伊始,两人不约而同地发现了一个有趣的交集:
Geoff与Jeff都对「反向传播」(backpropagation)抱有近乎痴迷的热情。
虽然该概念的奠基性论文于1986年发表于Nature,但其思想雏形早在1982年就已诞生。
论文地址:https://www.nature.com/articles/323533a0
Jeff Dean回忆起自己本科毕业设计的经历——
1990年,他先修了一门并行算法课,仅用一周时间接触神经网络,便被其深深吸引。
于是他找到明尼苏达大学的Vipin Kumar教授,申请以「用于训练神经网络的并行算法」为题的荣誉论文。
彼时,Jeff Dean借助一台拥有32个处理器的超立方体计算机,天真地以为算力扩展32倍就能打造出惊世骇俗的神经网络。
论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1
然而现实狠狠地给他上了一课。
在疯狂堆叠处理器(算力)时,却未能同步放大模型本身的规模。
他仅仅把一个只有10个神经元的层,强行拆分到32个处理器上,最终效果惨不忍睹。
Jeff Dean还在那时萌生了两个如今看来无比前卫的概念:「数据并行」与「模型并行」(当时他称之为「模式划分」)。
另一边,Hinton则自嘲对算力潜力的后知后觉。他表示,「我本该在80年代末就意识到算力将决定一切」。
彼时,全球有两个顶尖团队:伯克利ICSI团队与剑桥团队。
他们借助并行计算,打造出更强大的语音声学模型,屡次刷新业界纪录,性能远超常规训练出的神经网络。
然而,随着模型规模扩张,编程复杂度与硬件成本急剧攀升,他们最终未能坚持到底。
直到2014年,Hinton聆听完Ilya Sutskever的报告,才豁然开朗——
Scaling才是决胜关键,而且这一趋势将愈演愈烈。
接着,话题转向2012年的AlexNet——那个引爆AI大爆炸的里程碑。
Hinton回忆道,Vlad Nair率先将英伟达GPU应用于道路识别、航拍图像任务,大获成功,有力证明了「多层网络远胜单层」。
AlexNet正是这样一个8层神经网络
当时,Hinton为该研究项目申请续期经费,却惨遭评审驳回——
该项目毫无资助价值,因为它绝无可能产生任何工业影响力。
Hinton在现场打趣道,真想穿越回去告诉那位评审,这项技术去年贡献了美股市场80%的涨幅。
随后,学生Alex Krizhevsky尝试用MNIST数据集做「微型图像」识别。
但Alex起初并不顺利,Hinton排查发现是权重衰减参数设错,及时纠正了问题。
这时,Ilya提议:「为何不直接挑战ImageNet?如此庞大的数据集必能成功,我们得赶在Yann LeCun之前行动」。
巧的是,LeCun也一直试图推动实验室的博士后和学生将卷积神经网络应用于ImageNet,但大家认为有更紧要的事情待办。
于是Ilya主动承担数据预处理工作,将所有图像统一到固定尺寸,效果出奇地好。
Hinton调侃道,「接下来,我做了这辈子最英明的一次管理决策」。
我承诺Alex:只要每周在ImageNet上提升1%的性能,就允许他无限期推迟论文综述的撰写。
结果,一周又一周,模型不断迭代进化。
至于训练硬件,就是众所周知的「两块英伟达GTX 580 GPU」。
当时,Alex就在自己卧室里,用这两块显卡完成了AlexNet的全部训练。Hinton幽默地说,「当然,GPU是我们掏的钱,电费由Alex父母承担,纯属为多伦多大学开源节流」。
几乎在同一时期,谷歌内部一支全新团队——谷歌大脑(Google Brain)正在悄然酝酿。
Jeff Dean回忆,Google Brain的最初火种,源于茶水间一次不经意的闲聊。
那天,时任斯坦福教授的Andrew Ng(每周在谷歌兼职一天)恰好与Jeff Dean碰面。
Andrew提到,「我的学生用神经网络取得了相当亮眼的成果」。
这句话瞬间点燃了Jeff Dean的灵感——我们坐拥海量CPU,何不训练一个超大规模的神经网络?
于是他们构建了一套融合模型并行与数据并行的训练系统,将规模扩展至上千台机器。
那个著名的实验:从1000万YouTube视频帧中进行无监督学习,让神经网络自己学会识别「猫」。
他们并未采用卷积,而是用「局部连接」的方式处理视觉任务,导致参数量高达20亿。
为了完成这一训练,他们动用了16000个CPU核心。
Jeff表示,「我们当时已经清楚地观察到,模型越大,效果越强。只不过尚未将其系统性地提炼为Scaling Laws」。
我们甚至有一句口头禅,某种意义上已是Scaling Laws的雏形:更大的模型、更多的数据、更强的算力。
也就是说,在AlexNet引爆全球前一年,Google Brain其实早已验证了Scaling Laws的核心思想。
2012年夏天,Andrew Ng转向教育平台Coursera,因为他坚信那才是未来。
于是,他推荐Hinton接替自己。
有趣的是,Hinton本想以访问科学家身份入职,但谷歌规定必须全职满6个月才能支薪。
就这样,64岁的Hinton,成为了谷歌的一名「实习生」。而且,导师正是Jeff Dean。
进入谷歌后,Hinton不得不和一群年轻实习生一起参加入职培训。
一间大教室里坐满了学生,有印度理工的,有清华的,总之全是一群绝顶聪明的年轻人。
培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场懵了:LDAP是什么?OTP又是什么?
大约过了十分钟,他们决定:派一名助教专门对我进行一对一辅导。
其他学生都好奇地张望,看着这个明显什么都不会、年纪是他们三倍的老人。说实话,场面相当尴尬。
更窘的是,午餐时间Hinton还碰巧遇到了自己以前教过的一名本科生。
直到入职第二天,Jeff Dean和Hinton才在Palo Alto一家越南餐厅首次正式会面。
AlexNet爆红之后,多家科技巨头争相抢夺Hinton团队。
后来他们发现,如果将团队包装成一家「公司」,可以争取到更丰厚的收购条件。
「所以我们决定:我们要成为『被收购的标的』」。
当时,Hinton火速成立DNN Research,并在南太浩湖(South Lake Tahoe)的赌场举办了一场别开生面的拍卖会,谷歌、微软、百度等巨头悉数到场。
有趣的是,竞拍地点就设在赌场之内。
楼下老虎机叮当作响,楼上每次加价至少100万美元起步。
Hinton坦言,「但其实我心里早就有了答案:谷歌必须赢」。
最根本的原因,正是那年夏天那段「实习生」经历让Hinton对谷歌产生了深厚认同。
所以在拍卖临近尾声时,当两拨竞标者离场、局面可能让「不该赢的人」胜出时,我们果断叫停了拍卖。
Google Brain早期合影
加入谷歌后,Hinton参与了众多项目,现场他还分享了失败的案例——Capsules(胶囊网络)项目。
他投入「巨大的决心」,在这个项目上执着了多年,尽管Jeff和Ilya都曾劝阻,最终仍一无所获。
当然,Hinton在职期间也为谷歌做出了诸多重要贡献,比如「模型蒸馏」(distillation)。
大约在2014年,这篇论文投稿NeurIPS后惨遭拒稿。
审稿人完全无法理解其思想,如今事实却证明,它已成为大语言模型的核心技术之一。
另外,Hinton和Abdelrahman Mohamed曾开发出一款优秀的「语音声学模型」,并尝试推销给黑莓(BlackBerry),同样遭到拒绝——
因为我们有物理键盘,不需要这个
后来,Navdeep Jaitly在谷歌用GPU证明了该模型的巨大价值,大获成功。
若要论Google Brain对世界影响最深远的论文,非Transformer莫属!
Jeff Dean回忆道,Transformer的灵感源自Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。
该方法利用深层LSTM,在机器翻译领域取得了巨大成功。但LSTM存在根本瓶颈:顺序依赖与状态压缩。
如果你把所有状态都保存下来,并对它们施加注意力(attention),可能会是一种更优的方案。
事实上,在谷歌之外,已有研究者开始探索注意力机制。
注意力机制最早由Bahdanau等人引入,其核心是保留完整上下文。
后来,这一思想被整合进seq2seq框架,并最终演变成Transformer:即保留全部状态,再对其施加注意力计算。
Jeff Dean评价道,这一设计极其优雅——
因为它能并行计算所有状态,彻底摆脱了严格的顺序依赖。
同时,解码时能回顾所有历史状态,从而更精准地理解当前任务;对于编码器而言,也意味着能够利用更丰富的状态表征。
Hinton坦言,Transformer刚问世时,自己并未足够重视——因为人脑并不会存储每一步的向量,他更关注生物学启发的模型。
但论文一经发表就展现出惊人优势:仅需传统模型十分之一到百分之一的算力,就能达到同等甚至更优的效果。
这显然是一个里程碑式的事件。
然而从谷歌内部视角看,Transformer只是众多突破中的一员,并未被视作「独树一帜」。
Hinton表示,我至今也不敢肯定它是否「更重要」——但它的确极具实用价值。
在ChatGPT引爆全球之前,谷歌早已拥有强大的对话机器人,但出于搜索业务对准确性的极致追求,幻觉和事实性错误使其迟迟未能公开发布。
Jeff解释道,「搜索的生命线是准确」。
直到2023年,ChatGPT横空出世,让谷歌瞬间陷入被动。内部立即拉响「红色警报」,Jeff 写下了一页备忘录:
我们如今有点「作茧自缚」了。
因为我们很早就知道,算力规模与模型性能之间存在强正相关:投入的算力和数据越多,模型就越强大。
而且,谷歌内部多个团队——Google Brain、DeepMind、谷歌研究院——都在这一领域做出了探索性尝试。
但问题在于,我们把研究思路和人力切割得过于零碎,算力资源也分散得七零八落。
于是,一场大规模内部重组闪电完成,Google Brain+DeepMind=Google DeepMind。
这直接催生了Gemini:团队合并,算力共享,最终打造出全球领先的多模态模型。
此时,Hinton突然打断问道,「谷歌是否对发表Transformer论文感到后悔」?
Jeff Dean铿锵有力地回答,「绝不后悔,因为它给世界带来了深远而积极的改变」。
紧接着主持人反问道,「自那以后谷歌就很少发表论文了?还是说这只是外界误解」?
Jeff澄清道,「我们仍在持续发表,今年NeurIPS上就有上百篇谷歌的论文」。
对于那些主要涉及商业核心、尤其是面向「最大规模模型」的研究,我们会更加审慎。
公开研究依然是我们的竞争优势,能吸引顶尖人才并获得社区反馈。 谷歌全栈护城河,坚不可摧
最近几周,谷歌Gemini系列密集发布,让全球重新认识到谷歌的强大实力。尤其是,背后硬件的绝对优势——TPU。
Jeff Dean现场强调了硬件与模型「协同设计」(co-design)的独特优势——
谷歌研究人员与硬件团队紧密协作,提前布局潜力方向,预判未来2-6年的技术趋势。
甚至,他们运用强化学习来优化芯片布局布线,并在多代TPU上成功落地。
这不仅显著提升了芯片质量,也极大加速了研发流程。
在炉边对话的压轴环节,主持人抛出了所有人最关心的问题——
AI领域接下来的演进方向是什么?Transformer会被颠覆吗?20年后,世界将变成怎样?
Jeff Dean最兴奋的方向之一,是将注意力机制的触角从百万Token扩展到数万亿级别。
让模型能够直接访问所有科学文献、所有视频资料,而不再是把数万亿Token硬塞进几千亿个权重参数中。
他承认,这无疑需要硬件层面的革新,更需要能效更高、性价比更优的推理芯片。
Jeff Dean还指出,当前模型普遍缺乏「持续学习」能力,训练完成后便固化不变。
MoE模型通常是一堆规模相等的专家:分拆、合并、再分拆。说实话,这种结构并不算特别有趣。
未来,他们还将探索更具动态性、受大脑启发的架构。
对于20年后的预测,Hinton总结道——
如果真的有人造出通用人工智能,要么我们从此幸福快乐地共生,要么我们全部走向终结。
20年后究竟会带来怎样的影响,无人能够精准预言,尤其是对社会结构的冲击。
很明显,许多岗位会消失。但不确定它能否创造出足够多的新职业来填补空缺。
Jeff Dean则对科学加速持乐观态度,「AI打通不同学科壁垒,实现自动化发现闭环,将让科研突破以前所未有的速度发生」。
两人一致认为,医疗与教育领域将迎来最剧烈的变革。
Hinton最后补充道,「大模型将海量知识压缩其中,能够捕捉人类未曾发现的深层共性——比如将希腊文学与量子力学进行远距离类比,这种创造力令人惊叹」。
参考资料:
https://x.com/JeffDean/status/2001389087924887822
https://www.youtube.com/watch?v=ue9MWfvMylE
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224864.html