在人工智能大模型竞争白热化的今天,究竟哪家模型更加强大?是OpenAI的GPT系列,还是Anthropic的Claude?是谷歌的Gemini,还是中国的新星DeepSeek?
随着AI模型排行榜被各种刷分行为干扰,谁家模型最优的问题变得愈发主观,直到一个线上竞技场诞生,它就是:LMArena。
在文本、视觉、搜索、文生图、文生视频等不同AI细分领域,LMArena平台上每天进行上千场实时对战,由普通用户匿名投票选出更优回答。近期,许多AI研究者纷纷指出,大模型竞赛的下半场,核心任务之一是重新审视模型评估体系。
当技术创新趋于平稳,真正拉开差距的,或许不再是参数规模或推理速度,而是谁能更精准地界定、理解模型的智能边界。
传统基准测试(Benchmark)在大模型评测中究竟存在哪些局限,是否已经过时?LMArena的竞技场模式为何被视作新标准?其技术机制、公平性及商业化面临何种挑战?下一代大模型评测又将何去何从?
在LMArena出现之前,AI大模型的评估方式相当“传统”。研究者通常准备一组固定题库,如MMLU、BIG-Bench、HellaSwag等。这些名称对大众陌生,却在AI学术界广为人知。
这些题库覆盖学科、语言、常识推理等多维度,通过不同模型作答,根据正确率或得分进行比较。
以MMLU为例,全称为“大规模多任务语言理解”,涵盖从高中到博士级别的57个知识领域,包括历史、医学、法律、数学、哲学等。模型需回答技术问题如“神经网络中的梯度消失问题如何解决”,也需应对社会科学问题如“美国宪法第十四修正案的核心内容是什么”,学科跨度极大。
BIG-Bench更侧重推理与创造力,例如让模型解释冷笑话、续写诗歌或完成逻辑填空。HellaSwag则专门测试模型对日常情境的理解能力,比如“一个人正在打开冰箱,接下来最可能发生什么?”等。
这些Benchmark在过去二十年主导了AI研究领域。其优势明显:标准统一、结果可复现。学术论文只需在相关公开数据集上刷新分数,即意味“性能更强”。AI上半场正是在这种“比成绩”的节奏下快速发展。
但早期Benchmark是静态的,多以单轮问答、选择题形式为主,题目结构简单、评测维度明确,便于统一打分和横向比较。
然而,随着模型能力增强、训练数据扩大,这些Benchmark的局限逐渐暴露。
首先是“题库泄漏”,许多测试题早已出现在模型训练语料中。因此,模型在这些测试中得分高,未必代表真正“理解”问题,可能只是“记住”答案。
其次,Benchmark难以评估模型在真实交互中的表现,它更像封闭考试,而非开放对话。
华盛顿大学助理教授、英伟达首席研究科学家,也是LMArena早期框架参与者朱邦华表示,正是传统静态Benchmark存在的过拟合、数据污染等问题,催生了Arena这种新型模型测评方式。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
当时流行的几个Benchmark,如Math500、MMLU,存在几个问题。
大家极易过拟合,例如仅有几百个问题,若有标准答案且训练在标准答案上,尽管有一些污染检测方法,但难以完全检测。因此,这种静态基准一是数量少,二是覆盖面不足,可能仅涵盖最简单数学、基础知识及代码生成,如HumanEval。
当时Benchmark数量少、覆盖面有限,Arena作为独特Benchmark出现,因其每个问题都是独特的,可能是全球用户提问,如俄罗斯或越南用户提出实时问题,这使过拟合变得困难,尤其是在当时大家缺乏Arena数据的情况下。
2023年5月,LMArena雏形诞生于由全球顶尖学府组成的非营利开放研究组织LMSYS。核心成员包括Lianmin Zheng、Ying Sheng、Wei-Lin Chiang等。
当时他们刚发布开源模型Vicuna,而斯坦福大学此前推出类似模型Alpaca。由于这两个模型均基于大型语言模型微调,LMSYS团队希望了解,从性能表现看,谁更优秀?
当时无合适评测方法能回答此问题。LMSYS团队尝试两种方式:
一是让GPT-3.5作为评委,对不同模型生成的答案打0到10分,此法后演化为MT-Bench(模型测试基准)。
另一种是采用人类比较(配对比较),即随机挑选两个模型,针对同一问题生成回答,再由人类评审选择更优者。
最终,第二种方式被证明更可靠,并由此诞生Arena核心机制。
基于此,他们先搭建实验性网站Chatbot Arena,即今日LMArena前身。传统基准测试中,模型在预设题库答题;而在Chatbot Arena上,它们需“上场打擂台”。
用户输入问题后,系统随机分配两个模型,如GPT-4和Claude,但用户不知面对的是谁。双方模型几乎同时生成回答,用户只需投票:左边好,还是右边好?投票完成后,系统揭示其真实身份。此过程称为“匿名对战”。
投票后,系统基于Bradley–Terry模型实现Elo式评分机制,分数根据胜负实时变化,形成动态排行榜。
Elo排名机制源自国际象棋。每个模型有初始分数,每赢一场涨分,输一场扣分。随着对战次数增加,分数逐渐收敛,最终形成动态模型排行榜。
此机制妙处在于,它将评测变为“真实世界的动态实验”,而非一次性闭卷考试。此外,LMArena不止“让模型打架”,背后还有独特 “人机协同评估框架”。
此框架逻辑是用人类投票捕捉“真实偏好”,再通过算法保证“统计公平”。平台自动平衡模型出场频率、任务类型和样本分布,防止某模型因曝光量大被“高估”。换言之,它让评测既开放又可控。更重要的是,Chatbot Arena所有数据和算法开源,任何人都可复现或分析结果。
作为LMArena早期搭建核心参与者,朱邦华指出,LMArena技术本身并非新算法,更多是经典统计方法的工程化实现。其创新点不在模型本身,而在系统架构与调度机制。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
一方面,Bradley–Terry Model本身无太多新技术,但如何选模型较新,是大家摸索出来的。
假设现有100个模型,想了解哪个更好,需一些主动学习。若已选出一些模型并知大概表现,接下来应选更不确定的模型进行比较。如何动态选出更适合对比的模型,是我们当时探索较多的事。我们做了相关系列研究和实验,比较如何调整不同参数,能让更好模型被选出,这是LMArena成功因素之一。
我个人觉得此项目还有时机和运气成分。因当时大家都需良好评估基准,而人类偏好尚未饱和。那时人类偏好真实反映模型能力,因此当时Arena作为行业黄金基准非常合理。
LMArena这种“匿名对战 + 动态评分”方式,被视为从静态Benchmark向动态评测的跃迁。它不再追求最终分数,而是让评测成为持续发生的“真实世界实验”。
它如同实时运行的AI智能观测站。在此,模型优劣不再由研究者定义,而是由成千上万用户选择共同决定。
2023年12月底,前特斯拉AI总监、OpenAI早期成员Andrej Karpathy在X(推特)上发推文关于LMArena,称“目前他只信任两个LLM评测方式:Chatbot Arena和r/LocalLlama”,为Chatbot Arena社区带来首批“流量”。
2023年底到2024年初,随着GPT-4、Claude、Gemini、Mistral、DeepSeek等模型陆续接入Chatbot Arena,平台访问量快速增长。研究者、开发者甚至普通用户,都在此观察模型“真实表现”。
到2024年底,平台功能及评测任务开始扩展,除语言模型对话任务,团队逐渐涉及大模型“细分赛道”,陆续上线专注代码生成的Code Arena、专注搜索评估的Search Arena、专注多模态图像理解的Image Arena等子平台。
为体现评测范围扩展,平台在2025年1月正式从Chatbot Arena更名为LMArena(大型模型竞技场)。几个月前,谷歌Nano Banana的爆火让更多普通用户关注LMArena。至此,LMArena从研究者小众项目,彻底成为AI圈乃至公众视野中的“大模型竞技舞台”。
不久前爆火的谷歌最新文生图模型Nano Banana,最早以神秘代号出现并引发“破圈式”关注的地方就是LMArena。
近期网友发现谷歌又故技重施,传闻已久的Gemini 3.0被发现已出现在LMArena上。根据网友测试反馈,Gemini 3.0 Pro代号应为lithiumflow,而Gemini 3.0 Flash是orionmist。据说能“读表”、能作曲和演奏,能力再次全方位提升。
显然,在正式发布新模型前,让它们在LMArena上测试,似乎已成谷歌惯例操作。实际上,各家模型早将LMArena当作“常规赛场”,用于测试普通用户最真实反馈。
除Google外,OpenAI、Anthropic、Llama、DeepSeek、混元、千问……几乎所有头部模型都在LMArena“打擂台”。
LMArena的火爆,让它几乎成为大模型评测“非官方标准”,但如同所有新实验,随着光环扩大,它也受到越来越多质疑。
首先是公平性问题。在LMArena匿名对战机制中,用户投票结果直接决定模型Elo排名,但这种“人类评判”方式并不总是中立。
不同语言背景、文化偏好甚至个人使用习惯都会影响投票结果。一些研究发现,用户更倾向于选择“语气自然”“回答冗长”的模型,而非逻辑最严谨、信息最准确的。这意味着模型可能因“讨人喜欢”而获胜,而非更聪明。
2025年初,来自Cohere、斯坦福大学及多家研究机构的团队联合发布研究论文,系统分析LMArena投票机制与数据分布。研究指出,Arena结果与传统benchmark分数间非强相关,且存在“话题偏差”与“地区偏差”,即不同类型问题或不同用户群体投票,可能显著改变模型排名。
此外,还有“游戏化”与“过拟合”问题。当LMArena排名被广泛引用甚至被媒体视为模型能力“权威榜单”时,一些公司开始为“上榜”专门优化模型回答风格。例如更积极使用模糊语气、提升字数密度或在提示工程上精细调教,以期望“赢得投票”。
Cohere研究论文明确指出,大型供应商在获取用户数据方面拥有显著优势。通过API接口,它们能收集大量用户与模型交互数据,包括提示和偏好设置。
然而,这些数据未公平共享,62.8%的所有数据流向特定模型提供商。如Google和OpenAI模型分别获得Arena上约19.1%和20.2%的全部用户对战数据,而其他83个开源模型总数据占比仅为29.7%。
这使得专用模型供应商能利用更多数据优化,甚至可能针对LMArena平台专门优化,导致过度拟合特定指标,从而提升排名。
典型例子是Meta的“刷榜事件”。今年4月,Meta在LMArena上提交的Llama 4 Maverick模型版本,表现超越GPT-4o与Claude,跃居榜单第二。但随着Llama 4大模型开源版上线,开发者们发现其真实效果不佳,因此质疑Meta疑似给LMArena提供了经专门针对投票机制优化的“专供版”模型,导致Llama 4口碑急转直下。
舆论爆发后,LMArena官方更新排行榜政策,要求厂商披露模型版本与配置,以确保未来评估公平性和可重复性,并将公开Hugging Face版本的Llama 4 Maverick加入排行榜重新评估,但事件仍在当时引发业内关于“评测公正性”的激烈讨论。
除系统和技术挑战,LMArena的商业化也让其中立性受到质疑。
2025年5月,LMArena背后团队正式注册公司“Arena Intelligence Inc.”,并宣布完成1亿美元种子轮融资,投资方包括a16z、UC Investments和Lightspeed等。
这意味LMArena正式从开源研究项目转变为具备商业化运营能力的企业。公司化后,平台可能开始探索数据分析、定制化评测和企业级报告等商业服务。
这一转变也让业界担忧,当资本介入、客户需求与市场压力叠加时,LMArena是否能保持最初“开放”与“中立”?其角色是否会从“裁判”变成“利益相关方”?
在LMArena之后,大模型评测似乎进入新拐点。它解决过去Benchmark静态、封闭问题,却也暴露新矛盾。即当评测数据、用户偏好甚至投票机制都可能成为商业竞争一部分,我们该如何界定“公平”?究竟何种模型评估方式才是当前所需?
实际上,LMArena的出现不意味传统Benchmark已过时。在它之外,静态Benchmark仍在持续演化。
近几年来,基于传统Benchmark,研究者陆续推出难度更高版本,如MMLU Pro、BIG-Bench-Hard等。此外,一些全新、聚焦细分领域的Benchmark也在不断创造,如数学与逻辑领域的AIME 2025、编程领域的SWE-Bench、多智能体领域的AgentBench等。
这些新Benchmark不再只是“考知识”,而是在模拟模型在真实世界中的工作方式。从过去单一考试题集,演化为庞大而多层次体系:有的评推理,有的测代码,有的考记忆与交互。
与此同时,评测正进一步走向“真实世界”。如最近一家名为Alpha Arena的新平台引发大量关注。它由创业公司nof1.ai推出,在首轮活动中,平台选取Deepseek、Genimi、GPT、Claud、Gork和千问等六大模型在真实加密货币交易市场中对战。
它给每个模型相同资金和Prompt,让它们独立决策和交易,最终以实际收益和策略稳定性作为评测依据。结果:DeepSeek竟然赢了!不愧是量化基金母公司下做出的AI模型。
虽此对战更多是“噱头”为主,大语言模型预测股市目前仍非常不靠谱,但Alpha Arena的“实战式评测”再次跳出传统题库和问答框架,让模型在动态、对抗环境中被检验,被视为继LMArena后,又一次尝试让AI在开放世界中接受考验的实验。
不过,Alpha Arena更偏向特定任务领域真实验证,其结果也更难复现与量化。
实际上,这些Arena出现意义,并非要取代静态Benchmark,而是为此体系提供一面镜子,试图把静态测试中难以衡量的人类偏好与语义细节,重新引入评测系统。
也就是说,未来模型评估,不再是静态Benchmark和Arena间二选一,而更可能是一种融合式评测框架。静态benchmark负责提供可复现、可量化的标准;而Arena负责提供动态、开放、面向真实交互的验证。两者结合,进而构成衡量智能的完整坐标系。
在此评估体系中,目前最重要且具挑战的部分是什么?朱邦华认为,随着大模型能力提升,原有测试集“太简单”问题愈发突出,Arena的自动难度过滤提出了阶段性解决方案,但真正方向是由人类专家与强化学习环境共同推动的高难度数据建设。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
之前包括Arena在内,大家抱怨一个问题:简单问题太多。随着模型变强,“简单”定义变大,可能越来越多prompt属于easy prompt。
所以当时Arena出了Hard Filter Version(难度过滤版),它直接问模型哪个更难,然后筛选一些hard prompt出来。现在随着thinking model(具备显式思维链模型)引入,也随着大家用RL(强化学习)训练各种模型,原来难的问题、难的prompt现在也不特别难了。
所以这时可能更需要人类专家,去标注各种更难数据作为Benchmark(基准测试),这也是我们作为模型开发者正做的事儿。如你看Grok 4,它们可能做Pretraining-scale RL(预训练规模强化学习)。一方面RL数据需非常多,另一方面,若RL数据用非常简单的数据,对模型不会有任何提升,所以你需要大量、非常困难的数据。
包括我现在英伟达做的一个事,也是想做一个RL Environment Hub(强化学习环境平台),让大家创造更多更难环境进来,能让更多人用RL训练它。
朱邦华谈到,大模型评估的未来,不会是线性改进,而是螺旋式共演。一边是不断变强的模型,另一边是不断变难的评测。模型突破迫使评测体系升级;而新评测又反过来定义模型能力边界。高质量数据成为连接两者的中轴。
朱邦华
华盛顿大学助理教授
英伟达首席研究科学家:
RL和Evaluation(评测),或者说Training(训练)和Evaluation(评测)就像是双螺旋感觉,一方面Training(训练)不断让模型变强,然后你会有更难的基准测试说:你现在的模型还不行。然后,你会提升训练,如环境难度,或找更好的model architecture(模型架构)、更好的算法,然后把模型能力再提升,你可能就需要更难的评测。现在似乎已到,大家这两步都得慢慢不断找人类专家去标注的程度。
现在大部分RL Environment Labeling(强化学习环境标注)工作他们会找博士级别的人,如顶尖的Math PhD(数学博士)、顶尖的CS PhD(计算机科学博士)去标注math coding data(数学代码数据),然后此数据卖得非常贵,一条可能几千美元水平。所以现在大家慢慢都偏向找这种expert data(专家数据),能让GPT-5或其他顶尖模型都无法回答或回答错的数据,通过此方式构造更难的Training data(训练数据)和Evaluation data(评估数据)。
除数据质量至关重要外,朱邦华还认为,研究者不仅要“造benchmark”,更要学会“选benchmark”。如何在成百上千个数据集中进行筛选、组合与聚合,建立兼顾统计有效性与人类偏好的聚合框架,也将是接下来几年重要工作方向。
正如OpenAI研究员姚顺雨在其博客《The Second Half》中写道:AI上半场,是关于“如何训练模型”;而下半场,则是“如何定义与衡量智能”。如今,评测不再只是AI模型性能的终点,而正成为AI向前发展的“核心科学”。
究竟何种评估方法才是最优,或许目前我们无法下定论。但能预见的是,这将是一场持续进行的实验:我们需在成百上千个benchmark中找到真正有价值的任务,然后在类似于LMArena这样的“竞技场”中去捕捉人类偏好的信号,最后再将它们结合成动态、开放、可信的智能测量体系。
也许在那一天,我们不再需要问“哪个模型最强?”而是去真正探索“智能,究竟是什么?”欢迎大家给我们留言,你们觉得LMArena的方式是否是衡量模型的最好标准?
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118457.html