当前位置:首页 > 科技资讯 > 正文

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析

谷歌Gemini 3.0模型据传已悄然登陆LMArena竞技场!众多实测案例提前流出,但其真实表现,业界评价褒贬不一。

Gemini 3.0的传闻已流传多时,如今终于露出蛛丝马迹。

依旧是在LMArena这个竞技场平台,Gemini 3.0的两个「匿名版本」被用户识别出来。

Gemini 3.0 Pro的代号为:lithiumflow

Gemini 3.0 Flash的代号为:orionmist

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第1张

这几乎已成为行业「惯例」,每次有新型号问世,总会在LMArena上先行预热一番。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第2张

然而,观察竞技场中的实测数据,Gemini 3似乎展现出一些实质性进步,期盼谷歌此次能摆脱对OpenAI的跟随策略,展现自身独特实力!

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第3张

此前,关于Gemini 3的部分前瞻性演示案例已有流出,有网友透露,谷歌这款新一代旗舰模型计划于10月22日正式发布。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第4张

部分获得内测权限的开发者,已经分享了若干演示片段。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第5张

但此次模型是直接出现在LMArena竞技场的测试队列中。

「幸运」匹配到Gemini 3匿名版本的用户分享了他们的交互实例,若你也有幸遇到,不妨分享一下Gemini 3的性能是否有了显著飞跃。

AI首次成功解读钟表时间

实际测试中,「识别钟表」一直是人工智能面临的一大挑战,其中涉及表盘设计、指针长度与指向、分钟刻度判断等多种复杂因素。

然而,Gemini 3 Pro(lithiumflow)的实测显示,该模型已能精确识别小时(6)、分钟(02)乃至秒数(30)。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第6张

面对相同问题,GPT-5 Thinking的表现则有些「失常」,竟将时间识别为12:30,似乎混淆了时针与分针。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第7张

使用Gemini 2.5 Pro进行实测同样出现识别错误,可见解读时钟时间对模型而言确实困难。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第8张

作为参照,LMArena中其他非顶尖模型的「失常」程度更为严重。

此外,在LMArena进行了多次实测,始终未能匹配到Gemini 3的匿名版本。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第9张

倘若竞技场中Gemini 3匿名版本的能力属实,那么Gemini 3确实值得高度期待!

SVG测试成为保留项目:骑自行车的鹈鹕

每当新模型亮相,SVG测试总是不可或缺的环节。

Gemini 3 Pro的SVG测试效果,初步观察相当出色。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第10张

其图像表现力较以往测试有明显提升,甚至能看出些许「抽象艺术」的风格韵味。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第11张

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第12张

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第13张

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第14张

当然,「骑自行车的鹈鹕」这个经典测试题永远无法回避,至少这次自行车的绘制确实相当不错。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第15张

但值得指出的是,可能由于这个互联网模因(meme)「骑自行车的鹈鹕」已成为测试新模型的固定梗,各家模型似乎都暗中针对此提示词进行了优化调整。

例如下面这两个竞技场中的例子,虽然未强调使用SVG格式。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第16张

即使明确要求使用SVG,效果依然非常「完美」,相比之下Gemini 3生成的图像反而显得普通,效果一般。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第17张

首个表现不俗的AI作曲模型

另一项重大更新是Gemini 3 Pro已具备音乐作曲能力。

它能够模仿特定音乐风格,长时间维持节奏稳定,并融入一定的活力与变奏。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第18张

你认为这段音乐效果如何?

目前大多数实测仍依赖于在LMArena中随机匹配。

(顺便抱怨一句,已运行近百条提示,仍未遇到Gemini 3)

那么,为何判定这两个匿名版本就是Gemini 3的测试代号呢?

有分析指出「Orion」一词本身可能与Gemini 3存在关联,且「orionmist」这类两个单词组合的命名方式是谷歌惯用的。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第19张

此前,在Gemini 3未现身LMArena时,就已有多位内测者认为其能力非凡。

它甚至能用一个HTML文件完整复现MacOS、Windows系统的UI交互界面。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第20张

更令人称奇的是,仅需1分钟,Gemini 3 Pro就能使用SVG创作出一整套风格统一的动画。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第21张

截取部分动画片段,其视觉效果颇具「震撼力」。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第22张

然而,也有部分用户遇到的实测效果并不理想。

Gemini 3.0疑似登陆LMArena竞技场:实测曝光与性能深度解析 3.0  LMArena AI模型评测 SVG创作 第23张

谷歌的Gemini 2.5发布已近一年,目前各大科技巨头均密切关注OpenAI的动向。

在OpenAI打出GPT-5和新版Sora 2两张王牌后,谷歌仅以Veo 3.1作为回应。

此次在LMArena上线测试版很可能是正式发布前的试水,Gemini 3的面世应该为期不远!

总体而言,尽管模型能力确有显著提升,如能解读钟表、绘制SVG、创作音乐,但整个AI圈的「标准化流程」也愈发固化——

先有传闻、再上LMArena、随后众人竞相寻找匿名版本、测试SVG、比较谁更像正品。

重复多次后,不免令人感到些许乏味。

毕竟,无论是Gemini 3、GPT-5还是Claude新版本,最终的评测方式似乎仍局限于「实测截图+提示词对比+图像描述」。

模型日益智能化,但我们的评估方法却似乎停滞不前。

期待下一次突破,不仅是模型更强,更能带来真正新颖的评测体验。

参考资料:

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101