随着大模型技术的激烈竞争,究竟哪个模型更强大成为了众人关注的焦点。OpenAI的GPT、Anthropic的Claude、谷歌的Gemini,还是中国的DeepSeek,这些名字频繁出现在AI讨论中。然而,当排行榜被刷分作弊充斥后,大模型的最强评判变得模糊,直到LMArena这个线上排行榜的出现。
在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户匿名投票选出哪一方的回答更好。最近,许多AI研究者纷纷发声,认为大模型竞赛下半场最重要的事情之一是重新思考模型评估。
当技术创新逐渐饱和,真正拉开差距的将不再是参数数量和推理速度,而是谁能更准确地衡量和理解模型的智能边界。
传统的Benchmark究竟存在哪些问题?是否已过时?LMArena的竞技场模式为何被视为新的标准?它的技术机制、公平性和商业化面临哪些挑战?下一代的大模型评测又将走向何方?
在LMArena之前,AI大模型是如何被评估的呢?方式其实很“传统”。研究者们通常会准备一组固定的题库,如MMLU、BIG-Bench、HellaSwag等。这些题库涵盖学科、语言、常识推理等多个维度,通过让不同模型作答,再根据答对率或得分对模型进行比较。
例如,MMLU全称是“Massive Multitask Language Understanding”,涵盖从高中到博士级别的57个知识领域,包括历史、医学、法律、数学、哲学等。而BIG-Bench偏向推理和创造力,HellaSwag则专门测试模型对日常情境的理解能力。
这些Benchmark在过去二十年几乎主导了整个AI研究领域。它们的优点在于标准统一、结果可复现。然而,随着模型能力和训练数据的增强,这些Benchmark的局限开始显现。
首先是“题库泄漏”,很多测试题出现在模型的训练语料里。其次,Benchmark永远测不出模型在真实交互中的表现。华盛顿大学助理教授、英伟达首席研究科学家朱邦华表示,正是这些问题催生了LMArena这种新的模型测评方式。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
当时的Benchmark数量少且覆盖面不足,Arena的出现因为每个问题都是独特的,来自世界各地的人提问,难以过拟合。
2023年5月,LMArena的雏形诞生于由全球顶尖学府组成的非营利性开放研究组织LMSYS。核心成员包括Lianmin Zheng、Ying Sheng、Wei-Lin Chiang等人。
他们发布了开源模型Vicuna,斯坦福大学也推出了Alpaca。为了比较这两个模型哪个更胜一筹,LMSYS团队尝试了两种方法:一是用GPT-3.5作为评委打分;另一种是采用人类比较。最终第二种方式被证明更可靠,诞生了Arena的核心机制。
基于此,他们搭建了实验性网站Chatbot Arena(即LMArena的前身)。用户输入问题后,系统会随机分配两个模型进行匿名对战。投票结束后,系统基于Bradley–Terry模型实现Elo式评分机制,形成动态排行榜。
这种机制的妙处在于让评测变成了一场“真实世界的动态实验”。此外,LMArena背后还有一个人机协同评估框架。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
我觉得这种项目可能还有一些时机和运气的成分在里面。因为当时大家都需要很好的评估基准。
LMArena的火爆让它几乎成了大模型评测的“非官方标准”,但也受到了质疑。
首先是公平性问题。用户的投票结果直接决定模型的Elo排名,然而这种“人类评判”并不总是中立的。不同语言背景、文化偏好甚至个人使用习惯都会影响投票结果。
研究发现用户更倾向于选择“语气自然”“回答冗长”的模型。此外,“游戏化”与“过拟合”的问题也值得关注。一些公司开始为“上榜”优化模型的回答风格。
实际上,LMArena的出现并不意味着传统的Benchmark已经过时。静态的Benchmark仍然在持续演化。
研究者陆续推出了难度更高的版本,如MMLU Pro、BIG-Bench-Hard等。同时,一些全新的聚焦于细分领域的Benchmark也在不断创造出来。
这些新的Benchmark不再只是“考知识”,而是在模拟模型在真实世界中的工作方式。与此同时,评测也在进一步走向“真实世界”。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
...这两步都得慢慢不断地找人类专家来去标的程度。
本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543741.html