当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新

谷歌的Gemini 3.0疑似在LMArena上线!众多实测数据提前曝光,但实际效果,众说纷纭。

传闻已久的Gemini 3.0终于露出马脚。

它依然在LMAreana竞技场中,两个马甲被揭开:

  • Gemini 3.0 Pro的马甲:lithiumflow
  • Gemini 3.0 Flash的马甲:orionmist

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第1张

这已经是传统艺能了,每次新模型上线,都要去LMArena上造势一番。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第2张

不过看了竞技场的实测结果,Gemini 3确实表现不俗,希望谷歌这次别再跟着OpenAI的步伐,要硬气一把!

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第3张

此前,一些前端案例就曾流出,网友称谷歌下一代旗舰模型将在10月22日发布。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第4张

一些拿到内测资格的开发者放出了部分demo。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第5张

这次直接上线在LMArena竞技场里了。

“幸运”碰到Gemini 3马甲的用户分享了他们的例子,如果你也运气好,可以分享一下Gemini 3的表现是否有大幅度的提升。

AI首次准确识别钟表

实测“看表”一直是AI的大难题,涉及多种因素,如钟表样式、指针长短、指向、分钟间隔等。

Gemini 3 Pro(lithiumflow)的实测显示,该模型已经可以精确到小时(6)、分钟(02)和秒(30)。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第6张

同样的问题,GPT-5 Thinking就有点“发癫”,直接识别成12:30,有点时针、分针不分。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第7张

用Gemini 2.5 Pro实测也是同样“发癫”,模型真的很难分辨时钟时间。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第8张

作为对比,LMArena中其他非顶级模型,“发癫”程度更甚。

另外,在LMArena中实测N次,未碰到Gemini 3的马甲。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第9张

如果竞技场里Gemini 3的能力是真的,那确实值得期!

SVG实测:骑自行车的鹈鹕

新模型出来后,SVG测试是躲不开的。

Gemini 3 Pro的SVG测试效果初看还不错。

谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第10张 谷歌Gemini 3.0上线LMArena,实测效果惊艳,但评测套路需创新 Gemini 3.0 LMArena AI评测 创新 第11张