面对Claude Opus 4.6和GPT Codex 5.3的强劲挑战,谷歌迅速推出了Gemini 3 Deep Think的重大升级。
在Codeforces上,它取得了惊人的3455 Elo分数,相当于全球排名第八。
目前,全球只有七人的编程水平能超越它,而之前最高的Elo分数是一年前o3取得的2727分。
Gemini 3 Deep Think的实力远不止于此,它还在ARC-AGI-2测试中取得了史无前例的84.6%成绩。
要知道,此前最强模型的得分仅在60%-70%之间,而Claude Opus 4.6的成绩为68.8%。
在人类最后考试(HLE)中,Gemini 3 Deep Think也刷新了SOTA,取得了48.4%的成绩。
据官方介绍,新版Deep Think是谷歌专门开发的推理模式,旨在推动智能发展前沿,并应对科学、研究和工程领域的现代挑战。
Gemini 3 Deep Think的实力究竟有多强?
它的目标不仅是赢得基准测试,更要进入科研和工程领域,协助工程师处理复杂任务。
新版Deep Think能够分析草图、对复杂形状进行建模,并直接生成用于3D打印的实体文件。以下是其打印的一个笔记本电脑支架:
罗格斯大学的数学家Lisa Carbone利用Gemini 3 Deep Think审阅了一篇高度专业的数学论文。
令人惊讶的是,Gemini 3 Deep Think成功识别出了一个细微的逻辑缺陷,而这一缺陷在之前的人工同行评审中均未被发现。
去年,Deep Think已在IMO等国际竞赛中夺得金牌。如今,全新升级后的Deep Think在多项高难度基准测试中刷新了SOTA:
Gemini 3 Deep Think的研发团队中不乏华人身影。
Yi Tay是Gemini团队中从事强化学习和推理方向研究的95后华人科学家。
...(后续内容保持原文不变)
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436227.html