当前位置:首页 > 科技资讯 > 正文

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注

谷歌的下一代AI模型Gemini 3.0据称已在LMArena平台悄然上线!大量早期实测结果纷纷流出,但其性能表现究竟如何,目前各界评价不一。

Gemini 3.0的发布传闻已持续数月,如今终于有了实质性进展。

再次聚焦于LMArena竞技场,Gemini 3.0的两个隐藏版本已被社区用户识别出来。

  • Gemini 3.0 Pro对应代号:lithiumflow
  • Gemini 3.0 Flash对应代号:orionmist

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第1张

这几乎成了行业惯例,每逢新模型发布前,总免不了在LMArena上进行预热造势。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第2张

不过,从竞技场的实测结果来看,Gemini 3.0确实展现出了不俗的潜力,期待谷歌此次能摆脱跟随策略,真正展现出创新实力!

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第3张

此前,Gemini 3.0的一些前端案例就已流出,有网友爆料称,谷歌的下一代旗舰模型将在10月22日正式发布。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第4张

部分获得内测资格的开发者,已经放出了演示案例。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第5张

但这次是直接上线在LMArena竞技场中,用户通过随机匹配可能遇到其马甲。"幸运"碰到Gemini 3.0马甲的用户分享了他们的例子,如果你也运气好,不妨分享一下Gemini 3.0的表现是否有了显著提升。

AI首次精准识别钟表时间

实测「看表」一直是AI领域的经典难题,涉及钟表样式、指针长短、指向精度和分钟间隔判断等多种因素。

不过,Gemini 3.0 Pro(lithiumflow)的实测显示,该模型已经能够精确识别小时(6)、分钟(02)和秒(30)。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第6张

同样的问题,GPT-5 Thinking的表现就有些"失常",直接识别成了12:30,似乎混淆了时针和分针。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第7张

使用Gemini 2.5 Pro实测也出现了类似问题,模型在时钟时间识别上确实面临挑战。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第8张

作为对比,LMArena中其他非顶级模型的表现更为不稳定。另外,在LMArena中多次实测,一直未能匹配到Gemini 3.0的马甲。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第9张

如果竞技场中Gemini 3.0的马甲能力属实,那么这款模型确实非常值得期待!

SVG测试成必备项目,骑自行车的鹈鹕再现

新模型每次发布,SVG测试总是不可或缺的环节。

Gemini 3.0 Pro的SVG测试效果,初步看来相当出色。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第10张

画面表现能力比以往测试提升显著,甚至展现出一些「抽象艺术」的风格。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第11张

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第12张

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第13张

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第14张

当然,骑自行车的鹈鹕这个经典测试永远无法回避,至少这次自行车的绘制相当逼真。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第15张

不过需要指出的是,可能由于互联网模因meme「骑自行车的鹈鹕」已成为测试新模型的梗,各家模型似乎都悄悄针对这个提示词进行了优化。

比如下面这两个竞技场例子,虽然没有强调使用SVG,但效果依然很"完美",相比之下Gemini 3.0画出来的反而显得普通。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第16张

即使强调了使用SVG,效果依然出色,而Gemini 3.0的产出则显得一般。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第17张

首个具备出色作曲能力的AI模型

另一个重大更新是Gemini 3.0 Pro能够进行音乐作曲。

它可以模仿多种音乐风格,长时间保持节奏稳定,并融入一些活力和变奏元素。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第18张

你觉得这个音乐效果如何?目前大部分实测还是在LMArena中随机匹配进行。

(顺便吐槽一下,运行了近百个提示,依然没遇到Gemini 3.0)

那为什么判断这两个马甲就是Gemini 3.0的实测代号呢?有人指出「Orion」本身可能与Gemini 3相关,而且「orionmist」这种两个单词合成的方法是谷歌常用的命名方式。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第19张

此前,Gemini 3.0未上LMArena时,就有各种内测认为其能力惊人,甚至可以仅用HTML代码重现整个MacOS、Windows系统的UI交互界面。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第20张

甚至仅用1分钟,Gemini 3.0 Pro就能使用SVG制作出完整风格的动画效果。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第21张

截取了部分动画,这个效果看起来相当引人注目。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第22张

不过,也有部分用户遇到的实测效果并不理想。

Gemini 3.0提前亮相LMArena竞技场,实测能力引发广泛关注 3.0  LMArena AI模型评测 SVG生成 第23张

谷歌的Gemini 2.5发布已近一年,目前各大科技公司都密切关注OpenAI的动态。在OpenAI打出GPT-5和新版Sora 2两张牌后,谷歌仅跟进了Veo 3.1。这次上线LMArena估计是发布前的试水,Gemini 3.0应该很快会正式亮相!

总的来说,虽然模型能力确实提升显著,能看表、画SVG、还能作曲,但整个AI圈的"传统艺能"也越来越固定——先传风声、再上LMArena、然后一堆人去撞马甲、测SVG、看谁更像真货。

看多了也不免有些审美疲劳。毕竟,无论是Gemini 3.0、GPT-5还是Claude新版本,最后都还是那一套「实测截图+prompt对比+看图说话」。模型越来越聪明,但我们的评测方式似乎还停留在老套路上。希望下一次,不只是模型更强,而是真的能玩出点新花样。

参考资料

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101