当前位置:首页 > 科技资讯 > 正文

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元

面对Claude Opus 4.6和GPT Codex 5.3的强劲挑战,谷歌迅速推出了Gemini 3 Deep Think的重大升级。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第1张

在Codeforces上,它取得了惊人的3455 Elo分数,相当于全球排名第八

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第2张

目前,全球只有七人的编程水平能超越它,而之前最高的Elo分数是一年前o3取得的2727分。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第3张

Gemini 3 Deep Think的实力远不止于此,它还在ARC-AGI-2测试中取得了史无前例的84.6%成绩。

要知道,此前最强模型的得分仅在60%-70%之间,而Claude Opus 4.6的成绩为68.8%。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第4张

人类最后考试(HLE)中,Gemini 3 Deep Think也刷新了SOTA,取得了48.4%的成绩。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第5张

据官方介绍,新版Deep Think是谷歌专门开发的推理模式,旨在推动智能发展前沿,并应对科学、研究和工程领域的现代挑战。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第6张

新版DeepThink已应用于实验室

Gemini 3 Deep Think的实力究竟有多强?

它的目标不仅是赢得基准测试,更要进入科研和工程领域,协助工程师处理复杂任务。

新版Deep Think能够分析草图、对复杂形状进行建模,并直接生成用于3D打印的实体文件。以下是其打印的一个笔记本电脑支架:

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第7张

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第8张

罗格斯大学的数学家Lisa Carbone利用Gemini 3 Deep Think审阅了一篇高度专业的数学论文。

令人惊讶的是,Gemini 3 Deep Think成功识别出了一个细微的逻辑缺陷,而这一缺陷在之前的人工同行评审中均未被发现。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第9张

勇夺三项新SOTA,推理成本降低82%

去年,Deep Think已在IMO等国际竞赛中夺得金牌。如今,全新升级后的Deep Think在多项高难度基准测试中刷新了SOTA:

  • HLE新SOTA——48.4%
  • ARC-AGI-2测试取得前所未有的84.6%成绩,并通过ARC Prize基金会验证
  • Codeforces上取得惊人的3455Elo分数
  • 在2025年国际数学奥林匹克竞赛中达到金牌水平

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第10张

华人领衔,打造顶尖推理模型

Gemini 3 Deep Think的研发团队中不乏华人身影。

Gemini 3 Deep Think震撼登场:刷新三项新SOTA,引领AI新纪元 Think  人工智能 推理模型 基准测试 第11张Yi Tay是Gemini团队中从事强化学习和推理方向研究的95后华人科学家。

...(后续内容保持原文不变)