当前位置：首页 > 科技资讯 > 正文

LMArena评测平台：AI界的“癌症”?

主机测评网
科技资讯
2026-06-09
457

令人震惊！AI界权威排行榜LMArena，竟是彻头彻尾的骗局？

近期，一篇题为《LMArena is a cancer on AI》的文章在2025年底被翻出，迅速登上Hacker News首页，引起轩然大波。

此文直接将LMArena——这一被无数研究者奉为圭臬的评测平台——钉上了耻辱柱，称其为AI发展的“癌症”。

LMArena评测平台：AI界的“癌症”? LMArena AI评测民主评分行业误导第1张

从金标准到毒瘤

那么，LMArena究竟是何方神圣？

背景介绍，LMArena（也称LMSYS Chatbot Arena）是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建的大模型评测平台。

LMArena评测平台：AI界的“癌症”? LMArena AI评测民主评分行业误导第2张

其运作方式简单：用户输入问题，两个匿名模型分别回答，用户通过投票选出更优者。最终通过Elo评分系统汇总，形成大模型排行榜。

LMArena评测平台：AI界的“癌症”? LMArena AI评测民主评分行业误导第3张

看似民主、公平，实则问题重重。

颜值即正义：荒诞的评分逻辑

Surge AI公司对LMArena进行了深度调查，结果令人震惊：

他们分析了500组投票数据，发现52%的获胜回答在事实上是错误的。

LMArena评测平台：AI界的“癌症”? LMArena AI评测民主评分行业误导第4张

Surge AI是一家美国数据标注公司，总部在旧金山，成立于2020年，由Edwin Chen创立。其客户包括OpenAI、Google、Microsoft、Meta、Anthropic等头部AI公司。

简单说：他们是帮AI公司做数据标注的专业承包商，对LMArena的批评有一定分量。

更离谱的是，39%的投票结果与事实严重相悖。这意味着什么？在LMArena上，超过一半的最佳答案其实是胡说八道。

为什么会这样？

Surge AI给出了答案：用户根本不会仔细阅读，更不会去核实事实。他们花两秒钟扫一眼，就选出自己喜欢的那个。

Meta的神操作

说到这里，不得不提今年早些时候的一场轰动事件。

Meta发布了一款名为Maverick的模型，在LMArena上势如破竹，一度冲到排行榜第二名，超越了OpenAI的GPT-4。

但开发者们很快发现了问题：Meta提交到LMArena的版本（叫Llama-4-Maverick-03-26-Experimental）和公开发布的版本完全不是一回事。

提交版被专门优化成长篇大论、表情符号满天飞、极尽谄媚之能事。而公开版则直接掉到了榜单第32名。

连扎克伯格都承认，他们就是在“hack”这个榜单。

垃圾进，垃圾出

LMArena的核心问题在于：它试图从垃圾中提炼黄金。

平台完全依赖互联网志愿者的随机投票。没有报酬、没有门槛、没有质量控制。任何人都可以来投票，且没有惩罚机制。

劣币驱逐良币

这种评价体系带来的后果是什么？当整个行业都在为一个奖励幻觉+格式的指标疯狂优化时，我们得到的就是一堆为幻觉+格式而生的模型。

AI研究大牛Gwern早就看穿了这一点：“LMArena的人是时候坐下来好好反思一下……”

残酷的选择

很多人会说：没办法，大家都在看这个榜单，我们不得不跟。我们必须为它优化。我们得卖出模型。榜单告诉用户哪个模型最好，我们只能玩这个游戏。

但是，真正优秀的产品有自己坚守的原则。

第一条路：为闪亮的排行榜和短期流量而优化；第二条路：坚守初心，优先考虑实用性、可靠性。

你就是你的目标函数

“写这篇批评文章的Edwin Chen是Surge AI的创始人。”他在个人博客中写下这样一段话：“想象两个AI系统……”

阿里云服务器性价比vps 免费vps

本文由主机测评网于2026-06-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260647718.html

LMArena评测平台：AI界的“癌症”?

从金标准到毒瘤

颜值即正义：荒诞的评分逻辑

Meta的神操作

垃圾进，垃圾出

劣币驱逐良币

残酷的选择

你就是你的目标函数

2026 AI眼镜：从“百镜大战”到“分层共存”的蜕变

Meta收购Manus或面临中国监管审查挑战

LMArena评测平台：AI界的“癌症”?

从金标准到毒瘤

颜值即正义：荒诞的评分逻辑

Meta的神操作

垃圾进，垃圾出

劣币驱逐良币

残酷的选择

你就是你的目标函数

2026 AI眼镜：从“百镜大战”到“分层共存”的蜕变

Meta收购Manus或面临中国监管审查挑战

相关文章