谷歌,这个曾定义深度学习黄金时代的科技巨头,经历了真正的危机后,选择从承认落后开始,踏上了一条重塑自我的道路。
“在很长一段时间里,这都是一场追赶。”
当谷歌首席AI架构师、DeepMind CTO Koray Kavukcuoglu在镜头前公开承认“曾被甩在后面”,人们不禁意识到:谷歌不仅要在技术上追赶,更要在心态上重新定位。
但这段逆风期已经成为过去式。
随着Gemini 3的发布,谷歌不仅在多项关键基准上重回前沿,更在搜索、YouTube、地图、Android等产品矩阵中实现了“同日上车”部署。这一举动证明,谷歌不仅追上了,更重塑了自己的组织方法论和技术路径。
在深度对话中,Kavukcuoglu罕见地拆解了这段“技术复兴”背后的故事:谷歌究竟如何在短短两年间扭转落后局面,实现系统性领先?
Kavukcuoglu的坦率非常少见。“当我们开始做Gemini时,我们知道自己落后。但你必须足够诚实,承认现实,然后才可能创新。”
这实际上标志着一次内部共识的转折:仅靠长期研究传统已经无法跟上时代速度。
过去的DeepMind以科学突破闻名:AlphaGo、AlphaFold、MuZero等里程碑式成果建立了“技术领先者”的光环。然而,当模型要进入大规模用户场景时,这种研究驱动的节奏被事实证明无法直接转化为产品能力。
承认这一点,是谷歌重新起跑的第一步。
在访谈中,Koray不止一次把“多模态”提到核心位置。他的解释没有宣传色彩,而是纯工程逻辑:世界不是线性的,因此理解世界的智能也不能是线性的。
文本只描述一维逻辑,图像代表空间结构,音频包含时间线索,而视频是这些维度的组合。一个能真正作为通用智能系统的模型,不可能只靠文字输入输出。
谷歌的选择是从架构级别开始统一,让不同模态的理解在同一个模型中共同训练。这是难度最高的路线,因为不仅要改动模型结构,还要重做token化方式、训练损失、优化器乃至推理路径。
但正是这种底层重构,使得Gemini能在图表解析、文档理解、跨模态任务等方面迅速拉开差距。外界常用“画得好不好看”来评判图像模型,而谷歌的思路则完全不同——多模态的意义在于让模型更理解世界,而不是生成漂亮图片。
Gemini真正的反转来自组织层面的变化。
过去的谷歌更像一条串行流水线:研究团队训练模型、工程团队负责部署、产品团队接手体验、安全团队从最后一环把关。这种结构在互联网产品时代有效,但在大模型时代会被放大出一个致命的后果——迭代缓慢且链路割裂。
而现在的谷歌,把所有团队重新组合成“并行系统”。Koray特别强调,从Gemini 3开始:产品经理从训练第一天就参与任务设计;工程团队同步优化推理路径与落地成本;安全策略嵌入训练过程,而不是上线前打补丁;真实用户数据直连训练管线,不再隔着层层组织结构。
这种变化让Gemini的迭代节奏第一次追上了竞争对手,也让模型更“像产品”——稳定、更懂意图、能执行真实任务,而不是只展示实验室能力。
过去一年,不少用户都感受到Gemini体验的明显改善。但Koray的解释并不是“模型更聪明了”,而是谷歌终于把“可用性”当成核心目标,包括:
第一,指令理解能力大幅提升。这是用户感受最直观的地方,也是模型走向执行智能的起点。
第二,国际化适配进入核心能力集。谷歌拥有全球用户,Gemini的训练过程首次系统性加入多文化、跨场景语料,而不是只做翻译。
第三,工具链与代码执行能力跃升。这奠定了Gemini走向Agent的基础——从“能回答”变成“能完成任务”。
Gemini的“变好”不是单点突破,而是系统工程成熟后的必然效果。
在谈到竞争优势时,Koray最强调的不是模型能力,而是基础设施——这是外界常常忽略的部分。
TPU、全球数据中心、跨产品分发能力、成熟的安全体系、构建在Search与Android之上的庞大调用入口……这些能力一旦与统一模型结合,就形成了很难被复制的网络效应。
Gemini的提升本质上是基础设施重新被激活。这也是谷歌能在短时间内从落后者重新回到行业中心的一大原因。
Koray对未来的判断清晰而直接:下一阶段的竞争不是谁模型更会聊天,而是谁能更好地完成多步骤任务。
这场竞争会发生在:工作流自动化、开发者工具链、企业任务智能化、搜索与信息组织方式、系统级AI(Android、Chrome、Workspace)
以下为Koray Kavukcuoglu主要观点:
...(此处保留原文中的主要观点部分)...
...(此处保留原文中的对话部分)...
本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545232.html