当前位置:首页 > 科技资讯 > 正文

LMArena评测平台:AI界的“癌症”?

令人震惊!AI界权威排行榜LMArena,竟是彻头彻尾的骗局?

近期,一篇题为《LMArena is a cancer on AI》的文章在2025年底被翻出,迅速登上Hacker News首页,引起轩然大波。

此文直接将LMArena——这一被无数研究者奉为圭臬的评测平台——钉上了耻辱柱,称其为AI发展的“癌症”。

LMArena评测平台:AI界的“癌症”? LMArena AI评测 民主评分 行业误导 第1张

从金标准到毒瘤

那么,LMArena究竟是何方神圣?

背景介绍,LMArena(也称LMSYS Chatbot Arena)是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建的大模型评测平台。

LMArena评测平台:AI界的“癌症”? LMArena AI评测 民主评分 行业误导 第2张

其运作方式简单:用户输入问题,两个匿名模型分别回答,用户通过投票选出更优者。最终通过Elo评分系统汇总,形成大模型排行榜。

LMArena评测平台:AI界的“癌症”? LMArena AI评测 民主评分 行业误导 第3张

看似民主、公平,实则问题重重。

颜值即正义:荒诞的评分逻辑

Surge AI公司对LMArena进行了深度调查,结果令人震惊:

他们分析了500组投票数据,发现52%的获胜回答在事实上是错误的。

LMArena评测平台:AI界的“癌症”? LMArena AI评测 民主评分 行业误导 第4张

Surge AI是一家美国数据标注公司,总部在旧金山,成立于2020年,由Edwin Chen创立。其客户包括OpenAI、Google、Microsoft、Meta、Anthropic等头部AI公司。

简单说:他们是帮AI公司做数据标注的专业承包商,对LMArena的批评有一定分量。

更离谱的是,39%的投票结果与事实严重相悖。这意味着什么?在LMArena上,超过一半的最佳答案其实是胡说八道。

为什么会这样?

Surge AI给出了答案:用户根本不会仔细阅读,更不会去核实事实。他们花两秒钟扫一眼,就选出自己喜欢的那个。

Meta的神操作

说到这里,不得不提今年早些时候的一场轰动事件。

Meta发布了一款名为Maverick的模型,在LMArena上势如破竹,一度冲到排行榜第二名,超越了OpenAI的GPT-4。

但开发者们很快发现了问题:Meta提交到LMArena的版本(叫Llama-4-Maverick-03-26-Experimental)和公开发布的版本完全不是一回事。

提交版被专门优化成长篇大论、表情符号满天飞、极尽谄媚之能事。而公开版则直接掉到了榜单第32名。

连扎克伯格都承认,他们就是在“hack”这个榜单。

垃圾进,垃圾出

LMArena的核心问题在于:它试图从垃圾中提炼黄金。

平台完全依赖互联网志愿者的随机投票。没有报酬、没有门槛、没有质量控制。任何人都可以来投票,且没有惩罚机制。

劣币驱逐良币

这种评价体系带来的后果是什么?当整个行业都在为一个奖励幻觉+格式的指标疯狂优化时,我们得到的就是一堆为幻觉+格式而生的模型。

AI研究大牛Gwern早就看穿了这一点:“LMArena的人是时候坐下来好好反思一下……”

残酷的选择

很多人会说:没办法,大家都在看这个榜单,我们不得不跟。我们必须为它优化。我们得卖出模型。榜单告诉用户哪个模型最好,我们只能玩这个游戏。

但是,真正优秀的产品有自己坚守的原则。

第一条路:为闪亮的排行榜和短期流量而优化;第二条路:坚守初心,优先考虑实用性、可靠性。

你就是你的目标函数

“写这篇批评文章的Edwin Chen是Surge AI的创始人。”他在个人博客中写下这样一段话:“想象两个AI系统……”