令人震惊!AI界权威排行榜LMArena,竟是彻头彻尾的骗局?
近期,一篇题为《LMArena is a cancer on AI》的文章在2025年底被翻出,迅速登上Hacker News首页,引起轩然大波。
此文直接将LMArena——这一被无数研究者奉为圭臬的评测平台——钉上了耻辱柱,称其为AI发展的“癌症”。
那么,LMArena究竟是何方神圣?
背景介绍,LMArena(也称LMSYS Chatbot Arena)是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建的大模型评测平台。
其运作方式简单:用户输入问题,两个匿名模型分别回答,用户通过投票选出更优者。最终通过Elo评分系统汇总,形成大模型排行榜。
看似民主、公平,实则问题重重。
Surge AI公司对LMArena进行了深度调查,结果令人震惊:
他们分析了500组投票数据,发现52%的获胜回答在事实上是错误的。
Surge AI是一家美国数据标注公司,总部在旧金山,成立于2020年,由Edwin Chen创立。其客户包括OpenAI、Google、Microsoft、Meta、Anthropic等头部AI公司。
简单说:他们是帮AI公司做数据标注的专业承包商,对LMArena的批评有一定分量。
更离谱的是,39%的投票结果与事实严重相悖。这意味着什么?在LMArena上,超过一半的最佳答案其实是胡说八道。
为什么会这样?
Surge AI给出了答案:用户根本不会仔细阅读,更不会去核实事实。他们花两秒钟扫一眼,就选出自己喜欢的那个。
说到这里,不得不提今年早些时候的一场轰动事件。
Meta发布了一款名为Maverick的模型,在LMArena上势如破竹,一度冲到排行榜第二名,超越了OpenAI的GPT-4。
但开发者们很快发现了问题:Meta提交到LMArena的版本(叫Llama-4-Maverick-03-26-Experimental)和公开发布的版本完全不是一回事。
提交版被专门优化成长篇大论、表情符号满天飞、极尽谄媚之能事。而公开版则直接掉到了榜单第32名。
连扎克伯格都承认,他们就是在“hack”这个榜单。
LMArena的核心问题在于:它试图从垃圾中提炼黄金。
平台完全依赖互联网志愿者的随机投票。没有报酬、没有门槛、没有质量控制。任何人都可以来投票,且没有惩罚机制。
这种评价体系带来的后果是什么?当整个行业都在为一个奖励幻觉+格式的指标疯狂优化时,我们得到的就是一堆为幻觉+格式而生的模型。
AI研究大牛Gwern早就看穿了这一点:“LMArena的人是时候坐下来好好反思一下……”
很多人会说:没办法,大家都在看这个榜单,我们不得不跟。我们必须为它优化。我们得卖出模型。榜单告诉用户哪个模型最好,我们只能玩这个游戏。
但是,真正优秀的产品有自己坚守的原则。
第一条路:为闪亮的排行榜和短期流量而优化;第二条路:坚守初心,优先考虑实用性、可靠性。
“写这篇批评文章的Edwin Chen是Surge AI的创始人。”他在个人博客中写下这样一段话:“想象两个AI系统……”
本文由主机测评网于2026-06-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260647718.html