当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 3震撼发布:智能跃迁与生产力革新

11月19日,谷歌宣布推出Gemini 3模型,DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)与Gemini团队负责人乔希·伍德沃德(Josh Woodward)联合接受深度访谈。

此次升级中,Gemini 3首次具备了生成用户界面(Generative UI)的能力。当用户查询梵高的生平事迹时,它能即刻创建一个包含图片和时间线的互动页面;面对复杂计算需求,它则能生成一个专属的房贷计算器。

这一转变标志着大模型应用从回答问题的模式,迈向了动态软件生成的全新阶段。

Gemini 3模型的推理能力得到了显著提升。伍德沃德指出,前代模型常在第五步或第六步推理时思路中断,而Gemini 3在复杂的税务规划或长代码调试中,能维持10到15步的连贯逻辑,大幅增强了处理复杂任务时的可靠性。

在被称为“人类终极考试”(Humanity's Last Exam)的跨学科博士级难题集测试中,Gemini 3 Pro的得分从前代Gemini 2.5 Pro的21.6%大幅提升至37.5%,远超GPT-5.1的26.5%。在SimpleQA Verified测试中,Gemini 3 Pro达到了72.1%的准确率,相较GPT-5.1和Claude Sonnet 4.5提升了一倍多,显著减少了先前模型常见的幻觉现象。

视觉智能领域迎来重大突破。Gemini 3 Pro在针对屏幕理解和UI交互的ScreenSpot-Pro测试中,取得了72.7%的高分,几乎是GPT-5.1性能的20倍。这意味着AI Agent不仅能区分按钮、菜单、文本和上下文,还能进行更高级的自动化操作,大幅提升了模型作为数字工作代理的实用性。

谷歌Gemini 3震撼发布:智能跃迁与生产力革新 Gemini 3 智能跃迁 生产力工具 编码能力 第1张

在WebDev Arena排行榜上,衡量Web开发能力的标准中,Gemini 3获得了1487 Elo的高分。随着Gemini 3的发布,谷歌推出了全新的代理开发平台“Google Antigravity”,由Gemini 3作为“智能代理”来调用工具、编写接口、调试Bug。结合Vibe Coding的新功能,用户只需用自然语言描述需求,模型即可生成功能完整且设计美观的代码。

谷歌在战略定位上采取了克制态度,避开了当下热门的情感陪伴领域,将Gemini定义为提升生产力的超级工具。其内部考核指标不是用户粘性或情感依赖,而是今天帮用户完成了多少项任务。在Gemini Agent的早期演示中:模型不仅能理解邮件语境,还能深度接入用户邮箱,自动归类并拟定回复,甚至帮助用户彻底清空收件箱。从单纯助手进化为能够独立工作的智能同事。

谷歌Gemini 3震撼发布:智能跃迁与生产力革新 Gemini 3 智能跃迁 生产力工具 编码能力 第2张

以下为访谈实录:

罗兹:凯西,我们今天特别增加了一期节目,主题是Gemini 3的发布。

牛顿:是的,凯文。这款模型在硅谷AI界备受期待,我们终于能亲身体验这款真正成品了。

罗兹:我们打破常规周五发布节奏,专门录制这一期的原因有两个。首先,我们获得了与谷歌两位AI核心负责人(DeepMind CEO哈萨比斯和Gemini团队副总裁伍德沃德)的专访机会。

其次,Gemini 3的发布引起了业界强烈关注。我们获悉多个实验室内部消息,这款模型在某些关键领域实现了突破,可能对竞争对手构成实质性威胁。过去两年,谷歌被视为追赶者,现在的问题是:他们是否已重返领跑位置?

牛顿:在正式进入访谈之前,我们先简要介绍已知信息。谷歌在发布前举行了闭门简报会,Gemini 3最引人注目的新能力包括:大幅提升的编码与“氛围编码”能力;以及全新的交互界面生成功能。

它不再仅输出文字,而是直接为用户生成定制化的交互界面。例如,用户询问梵高生平时,模型会即刻生成一个包含图片、时间线和交互元素的完整学习页面;又如生成百万美元以上房产的按揭计算器。这些功能标志着从“回答问题”向“构建体验”的跃迁。

罗兹:在所有公开基准测试中,Gemini 3均大幅超越Gemini 2.5 Pro。例如,在被称为“人类终极考试”这一跨学科博士级难题集上,前者得分仅21.6%,后者直接提升至37.5%。谷歌的总体表态是:任何你能在ChatGPT、Claude或其他旧版Gemini上完成的任务,在Gemini 3上都能做得更好。

牛顿:他们还展示了Gemini Agent的早期演示:模型可深度接入用户邮箱,理解全部邮件内容,自动归类、拟定回复,甚至帮助用户彻底清空收件箱。

此外,本周起Gemini 3将登陆Gemini App和谷歌搜索的AI Mode;美国大学生将获一年免费高级版访问权限。谷歌反复强调的关键词是“Learn Anything”(学习任何事物),这实际上是将Gemini定位为终极个性化教育工具。

罗兹:德米斯、乔希,欢迎来到《Hard Fork》。两年前,桑达尔·皮查伊(Sundar Pichai)把Bard比作“一辆改装后的本田思域”,在与更强劲对手的赛道上竞速。那么,Gemini 3是一辆什么车?

哈萨比斯:我希望它比本田思域快得多。我不太习惯用汽车来比喻,或许更像一辆专业的拖曳赛车(Drag Racer)。它不是为日常驾驶或环形赛道设计的,它拥有纯粹的、为某一特定目标所凝聚的巨大力量。它代表着我们最顶尖的研究成果与规模化算力的完美结合,目标就是要在智能前沿的这场竞赛中展现出无与伦比的瞬间爆发力。

罗兹:这很有趣。相比以往所有AI模型,Gemini 3在具体层面上究竟能做什么全新的事情?请给我们一些量化、实际的例子。

伍德沃德:有三点最为突出。第一,在多步推理上,它能同时思考更多步骤,我们将其可靠性提升到了一个全新的层次。前代模型常在进行到第5、6步复杂的逻辑推导时“丢失思路”或产生幻觉,而Gemini 3能可靠地完成10到15步的连贯推理任务,例如复杂税务规划、跨国差旅的整体规划与预订等。

其次,它将首次大规模生成全新交互界面。用户需求的不再是简单的文字回答,而是定制化的软件组件。比如你问它:“帮我设计一个可以追踪我所有投资组合的仪表板”,它会实时生成一个交互式的、可操作的仪表盘界面。

第三,我们在编码能力上投入巨大资源,尤其是前端与“氛围编码”,这意味着它可以根据自然语言的提示来生成功能完整、设计优美的用户界面代码。即将推出的Google Antigravity等新产品也将充分展示这一点。

牛顿:许多人认为,“聊天”这一用例已经基本解决。他们甚至想不出什么新问题能让Gemini 3的回答与前代产生质的区别。你如何看待这种看法?

伍德沃德:我理解这种观点。表面上看,基础问答的准确率已经很高。但真正的区别在于可靠性、整合度与信息呈现方式。Gemini 3的回答将更简洁、更有表现力、信息呈现方式更易理解。

更重要的是,模型开始与用户其他数据源深度整合,例如与谷歌生态内其他产品联动。它能理解你整个邮箱的语境,从而在起草回复时不仅回答问题,还能根据你过去的风格调整语气和内容。

哈萨比斯:我完全同意。它的可靠性、风格与个性都经过精心打磨。在“氛围编码”等场景已跨越实用性门槛。这是一种从“智能助手”到“智能同事”的转变。