当前位置:首页 > 科技资讯 > 正文

Jeff Dean斯坦福演讲揭秘Gemini 3:AI发展三大新方向

Gemini 3的问世,再次将AI技术推向新高度。

然而,相较于前代版本,这次更新带来了哪些实质性的变化?仅仅是分数上的提升,还是AI的本质发生了改变?

在Gemini 3发布不久后的11月22日,Jeff Dean于斯坦福大学进行了一场演讲,全面梳理了过去15年AI的发展历程,涵盖神经网络、TPU、Transformer,以及稀疏模型与蒸馏技术,并最终展示了Gemini 3的独特之处。

演讲中,Jeff Dean并未提及基准测试分数,也未进行产品推广。他探讨的是:

为何AI应当模仿大脑的工作方式?

为何AI需要从“会说”进化为“会做”?

为何下一代AI的竞争焦点将从参数规模转向效率?

在Jeff Dean看来,Gemini 3并非单纯扩大规模,而是彻底改变了AI的应用方式。

这三个观点,正是此次发布所蕴含的真正信号。

信号一:从规模竞赛转向类脑设计

演讲伊始,Jeff Dean便指出了传统AI模型的低效问题。

他表示:

“在传统神经网络中,每个示例都会激活整个模型,这极为低效。更优的方案是:构建一个庞大的模型,但每次仅激活其中1%到5%的部分。”

设想一个拥有图像、语言、数学、代码等多种能力的巨型模型。传统方法下,无论输入何种问题,整个模型都会被激活,如同每次开灯都让家中所有电器同时启动。而Jeff Dean的构想是:根据任务需求,仅运行必要模块。处理图像时,仅调用视觉模块;编写代码时,仅启用编程模块。

他以人脑作比:上英语课时,大脑主要调用语言处理区域;开车时,则切换至负责运动和感知的部分。AI模型也应具备这种灵活性。

这一构想并非为Gemini 3临时起意。

数年前,Jeff Dean便带领团队探索此方向,并命名为Pathways架构。其核心是构建一个超大规模但保持高效的模型,每次推理仅激活一小部分路径。

Google通过“混合专家”(MoE)技术实现:

  • 模型内置多个专家模块
  • 部分擅长图像,部分擅长语言,还有的负责信息整合
  • 输入数据后,系统智能选择调用哪些专家

效果如何?Jeff Dean在演讲中展示的数据令人惊叹:在相同计算预算下,MoE架构可带来高达8倍的性能提升。

Gemini 3正是这一理念的最新成果。

它不再一次性加载全部权重,而是根据需求动态调用专家模块。

其结果是:性能更强、成本更低,且能并行处理多任务,正如人脑在复杂任务中协同多个区域,简单任务中仅用少数区域。

这一转变意味着什么?

未来顶级模型将不再是全能选手,而是由各具专长的模块协同工作的团队。

AI竞争的关键点,将从“谁的模型更大”转向“谁能更高效地调用工具”。

信号二:从回答问题到执行任务

如果说第一部分探讨了模型内部的智能化,那么第二部分则聚焦于AI的实际应用能力。

演讲现场,Jeff Dean展示了一个案例:用户拥有一批家族食谱,包含韩语手写和英语版本,均为带有折痕和油渍的老照片。

用户的需求简洁明了:创建一个双语食谱网站。

Gemini 3如何应对? 第一步:扫描并识别照片中的文字;第二步:翻译为双语;第三步:自动生成网站布局;第四步:为每份食谱生成AI配图。

整个过程,用户仅需一句话指令。

这正是传统助手与智能Agent的本质区别。助手被动响应,Agent则主动拆解目标、调用工具、完成完整操作链条。

Jeff Dean强调:

AI不应仅止于回答,而应具备行动力。

这一能力背后的技术突破在于:可验证领域的强化学习

具体而言:

以编程为例:

  • AI生成代码片段
  • 系统自动检测:能否编译?
  • 若能,给予奖励;若否,施加惩罚
  • 进一步:代码是否通过单元测试?
  • 通过则追加奖励

类似地,在数学领域:

  • AI生成证明过程
  • 系统利用证明检查器验证
  • 正确则奖励,错误则指出具体步骤

Jeff Dean指出,这项突破使模型得以真正探索潜在解决方案空间,并随时间推移不断优化探索策略。

效果令人震惊:Gemini在2025年国际数学奥林匹克竞赛中,解答了六道题目中的五道,荣获金牌。

这一成就意味着什么?

回顾三年前的2022年,AI在数学推理方面仍相当薄弱。

当时,最先进的模型在GSM8K(中学数学基准)上的准确率仅为15%。测试题目难度如何?例如:“Sean有五个玩具,圣诞节又得到两个,他现在共有几个?”

这类小学算术题,当时的AI正确率也仅有15%。

而如今,Gemini已能挑战全球数学天才竞赛中的顶级难题。

从小学算术到奥赛金牌,仅用了不到三年时间。

这一飞跃表明,AI已不仅擅长回答问题,更具备了真正的问题解决能力——能够自主探索、试错、验证,直至找到正确答案。

具体而言,Agent需具备三项核心能力:

  • 状态感知:理解用户意图和当前进展
  • 工具组合:调用搜索、计算器、API等外部资源
  • 多步执行:根据反馈调整计划,循环尝试直至完成

Gemini 3通过与Google生态系统的深度整合,能够串联日历、邮件、云端服务等真实系统,将这些能力付诸实践。

如同前述食谱网站案例:你无需逐项指令“先识别文字,再翻译,再排版”,只需说出目标“做个网站”,Gemini 3即可自动完成所有步骤。

这将彻底改变人们的工作方式:

过去,你需要指导AI每一步操作。

如今,你只需设定目标,AI自行搞定剩余流程。

你的角色从操作者转变为指挥者。

信号三:AI普及的真正门槛

如果说Pathways架构让模型更智能,Agent系统赋予其行动力,那么第三个信号或许最为关键却易被忽视:让AI变得负担得起。

Jeff Dean在斯坦福分享了一个2013年的故事。

当时,Google开发出一款性能优异的语音识别模型,错误率远低于现有系统。Jeff Dean进行了一项测算:如果1亿人每天与手机对话3分钟,会发生什么?

结果是:Google需要将服务器数量翻倍。

这意味着,一项功能的改进,竟需付出整个公司服务器资源翻倍的代价。

这一现实让Jeff Dean深刻认识到:仅有优秀模型远远不够,必须使其具备经济性。

于是,TPU应运而生。

1、TPU:为效率而生的硬件

2015年,第一代TPU正式投入使用。它专为机器学习设计,专注于将低精度线性代数运算优化至极致。

成果如何?

相比当时的CPU和GPU,速度提升15至30倍,能效提高30至80倍。

这使得原本需要翻倍服务器才能实现的功能,如今仅需现有硬件的一小部分即可完成。

至最新第七代Ironwood TPU,单个pod包含9,216个芯片。与第一代机器学习超级计算pod(TPUv2)相比,性能提升3,600倍,能效提升30倍。

Jeff Dean特别强调,这些进步不仅得益于芯片工艺的演进,更源于Google从设计之初就将能效作为核心目标。

2、蒸馏:让小模型继承大模型的能力

硬件之外,算法同样关键。

Jeff Dean与Geoffrey Hinton、Oriol Vinyals共同研究了“蒸馏”技术。

其核心理念是:以大模型为导师,教导小模型。

在一项语音识别任务中,他们进行了实验:

  • 使用100%训练数据,准确率为58.9%
  • 仅用3%训练数据,准确率降至44%
  • 但若采用蒸馏,仅用3%数据,准确率可达57%

他们成功实现了以3%的数据量,接近100%数据量的效果。

Jeff Dean解释道:

“你可以训练一个庞大的模型,然后通过蒸馏让一个小得多的模型获得与之相近的性能。”

这正是Gemini能同时实现性能领先与移动端可用的原因。大模型在云端训练,小模型通过蒸馏学习,部署至手机端。参数规模仅为十分之一,却能保留80%以上的能力。

3、真正的门槛:现实约束下的落地能力

然而,技术突破仅是起点。Jeff Dean认为,AI要实现全球普及,必须直面现实挑战:能源供应是否充足?电力是否稳定?网络是否畅通?设备是否兼容?

这正是Google在东南亚等新兴市场推广AI的原因。这些地区可能缺乏强大的电网和服务器基础设施,但通过TPU和蒸馏等效率技术,人们仍能在现有条件下享受AI服务。

Google的策略并非等待条件完美,而是让技术适应现实。

这一逻辑转变了行业的关注焦点。

过去,竞争焦点在于:

  • 模型有多强大?
  • 参数规模多大?处理多少token?

如今,真正关键的是:

  • 能否在我的设备上运行?
  • 成本能否降至可接受范围?
  • 是否支持离线使用?

下一轮竞争,将不再围绕参数规模,而是落地效率。

结语|从单一模型到系统思维

从性能数据看,这似乎只是一次模型迭代。

但从Jeff Dean的视角审视,这实则是一场范式革命。

从2013年服务器翻倍的困境,到2025年IMO金牌的突破,Jeff Dean始终在追寻一个答案:

如何让AI既强大又普惠?

答案蕴含于三个转变:

从规模竞赛转向智能设计(Pathways)

从精准回答转向主动执行(Agent)

从参数堆砌转向效率优先(TPU+蒸馏)

Gemini 3并非终点,而是这套系统化思维的首次全面呈现。

📮 原文链接:

https://www.youtube.com/watch?v=AnTw_t21ayE&t=921s

https://blockchain.news/ainews/key-ai-trends-and-deep-learning-breakthroughs-insights-from-jeff-dean-s-stanford-ai-club-talk-on-gemini-models

https://blog.google/products/gemini/gemini-3/?utm_source=chatgpt.com

https://www.wired.com/story/google-launches-gemini-3-ai-bubble-search?utm_source=chatgpt.com