未来已来,AI不再仅仅是工具,而是被称为「硅基博学家」的新角色。
在周五凌晨的北京时间,谷歌发布了Gemini 3 Deep Think的重大升级,这是一种专门用于复杂任务的推理模式。Deep Think代表着AI最前沿的顶级智能水平,旨在解决科学、工程领域的诸多挑战。
去年9月加入Google DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也是这次Deep Think新模型的参与者。
去年,谷歌展示了专门开发的Deep Think版本能够成功应对一些最棘手的推理挑战,并在数学和编程世界锦标赛上取得了金牌成绩。最近,Deep Think又使专门开发的智能体能够进行研究级别的数学探索。
更新后的深度思考模式继续拓展智能的边界,在最严格的学术基准测试中取得了新的高度,其中包括:
在「人类的最后考试」(一项旨在测试现代前沿模型极限的基准测试)中,该模型取得了新的SOTA(48.4%,不使用任何工具)。
在ARC-AGI-2测试中取得了前所未有的84.6%的成绩,并经ARC Prize基金会验证。
在Codeforces上取得了惊人的3455 Elo分数,Codeforces是一个包含各种竞技编程挑战的基准测试平台。
在2025年国际数学奥林匹克竞赛中取得金牌水平。
新版Gemini 3 Deep Think在ARC-AGI-1上的成绩是96.0%,每任务花费7.17美元;在ARC-AGI-2上已经达到了84.6%的分数,每任务成本为13.62美元。
大约14个月前,OpenAI模型o3-preview的「高计算」版本在ARC-AGI-1测试中达到了约88%的分数,每个任务的成本约为2000至3000美元。而Gemini 3 Deep Think的每任务成本仅为7.17美元,成本降低了约280至420倍。
这意味着我们现在需要再次为AI准备更复杂的测试题了。
除了数学和编程竞赛之外,Gemini 3 Deep Think现在在化学和物理等广泛的科学领域也表现出色。更新后的Deep Think模式在2025年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力,在CMT-Benchmark测试中取得了50.5%的分数。
还有这个在Codeforces上获得的3455分,Gemini 3 Deep Think已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前OpenAI o3的2727分,排名第175。
地球上只有7个人能在编程比赛中击败Gemini 3 Deep Think。
对于AI和整个科技领域而言,这是一个以往难以想象的成果。
谷歌与科学家和研究员紧密合作,对Gemini 3 Deep Think进行了升级。Deep Think将深厚的科学知识与日常工程实践相结合,超越了抽象理论,推动了实际应用。
借助更新后的Deep Think,你可以将草图转化为可3D打印的实体模型。Deep Think会分析图纸,对复杂形状进行建模,并生成用于3D打印的实体文件。
谷歌展示了一些早期测试用户使用最新版Deep Think的成果:
罗格斯大学的数学家Lisa Carbone致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用Deep Think技术审阅了一篇高度专业的数学论文。Deep Think成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。
在杜克大学,Haozhe "Harry" Wang带领的实验室利用Deep Think技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。Deep Think成功设计了一种能够生长厚度大于100微米薄膜的工艺,达到了以往方法难以企及的精确目标。
或许随着更多人的使用,我们不久之后能够基于Gemini 3 Deep Think实现更多科研突破。
全新Deep Think现已在Gemini应用中上线,目前Google AI Ultra订阅用户可以使用。此外,谷歌首次通过Gemini API向部分研究人员、工程师和企业开放Deep Think的使用权限。
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436204.html