当前位置：首页 > 科技资讯 > 正文

谷歌Gemini 3震撼发布：智能跃迁与生产力革新

主机测评网
科技资讯
2026-05-12
652

11月19日，谷歌宣布推出Gemini 3模型，DeepMind CEO德米斯·哈萨比斯（Demis Hassabis）与Gemini团队负责人乔希·伍德沃德（Josh Woodward）联合接受深度访谈。

此次升级中，Gemini 3首次具备了生成用户界面（Generative UI）的能力。当用户查询梵高的生平事迹时，它能即刻创建一个包含图片和时间线的互动页面；面对复杂计算需求，它则能生成一个专属的房贷计算器。

这一转变标志着大模型应用从回答问题的模式，迈向了动态软件生成的全新阶段。

Gemini 3模型的推理能力得到了显著提升。伍德沃德指出，前代模型常在第五步或第六步推理时思路中断，而Gemini 3在复杂的税务规划或长代码调试中，能维持10到15步的连贯逻辑，大幅增强了处理复杂任务时的可靠性。

在被称为“人类终极考试”（Humanity's Last Exam）的跨学科博士级难题集测试中，Gemini 3 Pro的得分从前代Gemini 2.5 Pro的21.6%大幅提升至37.5%，远超GPT-5.1的26.5%。在SimpleQA Verified测试中，Gemini 3 Pro达到了72.1%的准确率，相较GPT-5.1和Claude Sonnet 4.5提升了一倍多，显著减少了先前模型常见的幻觉现象。

视觉智能领域迎来重大突破。Gemini 3 Pro在针对屏幕理解和UI交互的ScreenSpot-Pro测试中，取得了72.7%的高分，几乎是GPT-5.1性能的20倍。这意味着AI Agent不仅能区分按钮、菜单、文本和上下文，还能进行更高级的自动化操作，大幅提升了模型作为数字工作代理的实用性。

谷歌Gemini 3震撼发布：智能跃迁与生产力革新 Gemini 3 智能跃迁生产力工具编码能力第1张

在WebDev Arena排行榜上，衡量Web开发能力的标准中，Gemini 3获得了1487 Elo的高分。随着Gemini 3的发布，谷歌推出了全新的代理开发平台“Google Antigravity”，由Gemini 3作为“智能代理”来调用工具、编写接口、调试Bug。结合Vibe Coding的新功能，用户只需用自然语言描述需求，模型即可生成功能完整且设计美观的代码。

谷歌在战略定位上采取了克制态度，避开了当下热门的情感陪伴领域，将Gemini定义为提升生产力的超级工具。其内部考核指标不是用户粘性或情感依赖，而是今天帮用户完成了多少项任务。在Gemini Agent的早期演示中：模型不仅能理解邮件语境，还能深度接入用户邮箱，自动归类并拟定回复，甚至帮助用户彻底清空收件箱。从单纯助手进化为能够独立工作的智能同事。

谷歌Gemini 3震撼发布：智能跃迁与生产力革新 Gemini 3 智能跃迁生产力工具编码能力第2张

以下为访谈实录：

罗兹：凯西，我们今天特别增加了一期节目，主题是Gemini 3的发布。

牛顿：是的，凯文。这款模型在硅谷AI界备受期待，我们终于能亲身体验这款真正成品了。

罗兹：我们打破常规周五发布节奏，专门录制这一期的原因有两个。首先，我们获得了与谷歌两位AI核心负责人（DeepMind CEO哈萨比斯和Gemini团队副总裁伍德沃德）的专访机会。

其次，Gemini 3的发布引起了业界强烈关注。我们获悉多个实验室内部消息，这款模型在某些关键领域实现了突破，可能对竞争对手构成实质性威胁。过去两年，谷歌被视为追赶者，现在的问题是：他们是否已重返领跑位置？

牛顿：在正式进入访谈之前，我们先简要介绍已知信息。谷歌在发布前举行了闭门简报会，Gemini 3最引人注目的新能力包括：大幅提升的编码与“氛围编码”能力；以及全新的交互界面生成功能。

它不再仅输出文字，而是直接为用户生成定制化的交互界面。例如，用户询问梵高生平时，模型会即刻生成一个包含图片、时间线和交互元素的完整学习页面；又如生成百万美元以上房产的按揭计算器。这些功能标志着从“回答问题”向“构建体验”的跃迁。

罗兹：在所有公开基准测试中，Gemini 3均大幅超越Gemini 2.5 Pro。例如，在被称为“人类终极考试”这一跨学科博士级难题集上，前者得分仅21.6%，后者直接提升至37.5%。谷歌的总体表态是：任何你能在ChatGPT、Claude或其他旧版Gemini上完成的任务，在Gemini 3上都能做得更好。

牛顿：他们还展示了Gemini Agent的早期演示：模型可深度接入用户邮箱，理解全部邮件内容，自动归类、拟定回复，甚至帮助用户彻底清空收件箱。

此外，本周起Gemini 3将登陆Gemini App和谷歌搜索的AI Mode；美国大学生将获一年免费高级版访问权限。谷歌反复强调的关键词是“Learn Anything”（学习任何事物），这实际上是将Gemini定位为终极个性化教育工具。

罗兹：德米斯、乔希，欢迎来到《Hard Fork》。两年前，桑达尔·皮查伊（Sundar Pichai）把Bard比作“一辆改装后的本田思域”，在与更强劲对手的赛道上竞速。那么，Gemini 3是一辆什么车？

哈萨比斯：我希望它比本田思域快得多。我不太习惯用汽车来比喻，或许更像一辆专业的拖曳赛车（Drag Racer）。它不是为日常驾驶或环形赛道设计的，它拥有纯粹的、为某一特定目标所凝聚的巨大力量。它代表着我们最顶尖的研究成果与规模化算力的完美结合，目标就是要在智能前沿的这场竞赛中展现出无与伦比的瞬间爆发力。

罗兹：这很有趣。相比以往所有AI模型，Gemini 3在具体层面上究竟能做什么全新的事情？请给我们一些量化、实际的例子。

伍德沃德：有三点最为突出。第一，在多步推理上，它能同时思考更多步骤，我们将其可靠性提升到了一个全新的层次。前代模型常在进行到第5、6步复杂的逻辑推导时“丢失思路”或产生幻觉，而Gemini 3能可靠地完成10到15步的连贯推理任务，例如复杂税务规划、跨国差旅的整体规划与预订等。

其次，它将首次大规模生成全新交互界面。用户需求的不再是简单的文字回答，而是定制化的软件组件。比如你问它：“帮我设计一个可以追踪我所有投资组合的仪表板”，它会实时生成一个交互式的、可操作的仪表盘界面。

第三，我们在编码能力上投入巨大资源，尤其是前端与“氛围编码”，这意味着它可以根据自然语言的提示来生成功能完整、设计优美的用户界面代码。即将推出的Google Antigravity等新产品也将充分展示这一点。

牛顿：许多人认为，“聊天”这一用例已经基本解决。他们甚至想不出什么新问题能让Gemini 3的回答与前代产生质的区别。你如何看待这种看法？

伍德沃德：我理解这种观点。表面上看，基础问答的准确率已经很高。但真正的区别在于可靠性、整合度与信息呈现方式。Gemini 3的回答将更简洁、更有表现力、信息呈现方式更易理解。

更重要的是，模型开始与用户其他数据源深度整合，例如与谷歌生态内其他产品联动。它能理解你整个邮箱的语境，从而在起草回复时不仅回答问题，还能根据你过去的风格调整语气和内容。

哈萨比斯：我完全同意。它的可靠性、风格与个性都经过精心打磨。在“氛围编码”等场景已跨越实用性门槛。这是一种从“智能助手”到“智能同事”的转变。

服务器教程云服务器

本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260544768.html

谷歌Gemini 3震撼发布：智能跃迁与生产力革新

双足人形机器人：未来家务新星，3-5年进家庭

卡诺普机器人冲刺港股，业绩面临挑战

谷歌Gemini 3震撼发布：智能跃迁与生产力革新

双足人形机器人：未来家务新星，3-5年进家庭

卡诺普机器人冲刺港股，业绩面临挑战

相关文章