Gemini 3 Pro震撼发布：AI性能领先，科技圈震动

主机测评网
科技资讯
2026-05-12
684

随着2025年逐渐进入尾声，仅余42天，科技界迎来了一项重大突破——被称为物理世界最强的AI系统Gemini 3 Pro预览版正式发布，并同步开放了API接口。这一消息在北京时间昨夜凌晨迅速传开，引发了广泛讨论。

Gemini 3 Pro震撼发布：AI性能领先，科技圈震动 Pro AI性能科技圈创新第1张

Gemini 3 Pro之所以被称为最强，是因为它在所有主要Arena排行榜中几乎全部占据首位，且评分远超其他竞争对手。就连OpenAI的CEO奥特曼也罕见地发文表示“看起来很不错”，马斯克更是评论称“做的不错”。

在微软的Ignite 2025大会开幕当天，微软也发布了Edge for Business浏览器的一系列重大更新，似乎在向Gemini 3 Pro发起挑战。

有人评价称，这是谷歌对OpenAI最猛烈的一次打击，业内普遍认为，Gemini 3直接冲击了GPT5的性能高地，甚至实现了GPT5.1未能实现的效果。

业内热议：性能“断层领先”？

在AI圈内，各模型之间你追我赶的微弱优势已属常态，但Gemini 3 Pro的成绩单无疑拉开了性能差距。

仅从跑分来看，Gemini 3 Pro几乎实现了“断层领先”。除了在软件工程能力上略逊于GPT-5.1和Claude Sonnet 4.5，在其他指标，尤其是推理、多模态和Agent工具使用等关键基准上，都实现了全方位的领先。

Gemini 3 Pro震撼发布：AI性能领先，科技圈震动 Pro AI性能科技圈创新第2张

在代表人类智力“天花板”的Humanity's Last Exam测试中，当GPT-5.1还在26.5%徘徊时，Gemini 3 Pro直接跑出了37.5%的高分。更令人震惊的是，其“深度思考模式”在不使用任何工具的情况下，得分进一步飙升至41.0%。

在数理方面，Gemini 3 Pro更是展现了其统治力。在AIME 2025（美国数学邀请赛）中配合代码执行，准确率达到惊人的100%。而在MathArena Apex测试中，当其他顶尖模型还在个位数或10%左右挣扎时，Gemini 3 Pro直接跑出了23.4%的分数。

然而，这些数据并不是科技圈最震撼的理由。Gemini 3 Pro展现了一种前所未有的体验——它不仅仅是在写代码，更是在搞创作。

以往评价一个AI的编程能力时，我们关注的是其逻辑是否正确、Bug多不多。但Gemini 3 Pro突破了这一维度。当用户给出一个极其抽象的Prompt时，比如“设计一个很温馨的场景，里面要有哆啦A梦和大熊，他们在一起憧憬着未来，并且我需要在浏览器里运行出来”，它不再堆砌半成品，而是直接交付一个可流畅运行的代码。

Gemini 3 Pro震撼发布：AI性能领先，科技圈震动 Pro AI性能科技圈创新第3张

不仅如此，AI博主数字生命卡兹克还让它生成了一个类似window的web os。结果是，它真的生成了这样一个系统。

Gemini 3 Pro震撼发布：AI性能领先，科技圈震动 Pro AI性能科技圈创新第4张

这一刻，很多前端工程师可能感到了寒意。Gemini 3 Pro证明，前端开发中的“手写”价值正在迅速归零。技术门槛被夷为平地，取而代之的是“想象力门槛”。只要Prompt描述得足够有画面感、足够“人味”，这个模型就能将人们的脑洞像素级还原出来。

然而，它对于程序员来说，目前并非万能。

关于之前网络上传的“彻底颠覆程序员”的说法，实际上，Gemini 3 Pro在AI领域虽处于顶尖水平，但并未实现“颠覆编程”的目标。在软件工程能力的SWE-Bench Verified测试中，它获得了76.2%的成绩，虽然表现出色，但仍落后于Claude Sonnet 4.5的77.2%（SOTA水平）。这表明在处理超长、复杂的后端逻辑时，它仍存在一定局限性。

当前，不少模型都在比拼竞争编程能力。从海外的Claude到国内的Kimi都在主打编程。目前，Gemini更偏向于辅助设计。它不能完全实现重构整个后端架构，但如果用户想设计一个符合现代审美的网站或生成复杂的SVG交互动画，它都可以通过简单提示提供令人惊艳、可立即运行的成果。

另一个例子也证明了现在的AI还不足以让我们完全信任。今天中午，据科技博主@纯银V发文称，Gemini 3的第一个大型受害者出现了。

一位朋友在使用Cursor进行AI编程时，Gemini 3不知何故直接删掉了用户800G的文件！更糟糕的是连Cursor自己也未能幸免。目前无法手动恢复只能找专门的数据恢复公司。

竞争持续升级

谷歌这次甚至将开发环境都进行了重构。

伴随模型发布的还有一个名为Google Antigravity的新平台。这可能是目前最接近“自动驾驶编程”的形态。它不再是一个让人们一行行敲代码的编辑器而是一个“智能体优先”的指挥中心。

在Antigravity里用户不是一个人在战斗。Gemini 3 Pro是大脑负责顶层架构；Gemini 2.5 Computer Use模型是手眼负责操控浏览器验证效果；Nano模型负责打杂。用户下达指令它们开始分工协作：写代码的写代码跑测试的跑测试甚至AI会自己打开浏览器看着界面说“这里歪了”然后自己切回终端进行修正。

Gemini 3 Pro震撼发布：AI性能领先，科技圈震动 Pro AI性能科技圈创新第5张