一场人工智能领域的《创造101》正在上演!LMArena让用户盲选投票,决定各大AI模型的江湖地位。短短三年,这个起源于校园的开源项目完成逆袭,刚刚斩获1.5亿美元融资,估值飙升至17亿美元。众包投票模式挑战传统专家评测,争议不断,却已成为行业标杆。你的每一次点击,都在塑造下一代AI顶流!
一场AI圈的偶像选拔赛火热进行中!
ChatGPT、Claude、Gemini、Grok等AI“选手”整齐列队,紧张等待公演时刻。
这不是综艺节目,而是真实发生在lmarena.ai平台上的AI巅峰对决。
这个曾经的校园开源小项目,最近刚刚完成1.5亿美元融资,估值达到17亿美元。
顶尖AI实验室如OpenAI、Google、xAI、Microsoft,都争相把自家最新模型送来“参赛”。
如今,AI能力的评判权不再掌握在少数巨头手中,而是交到了全球网民手里。
这场“AI创造营”究竟如何运作?谁将成为下一个C位出道?让我们一起揭秘。
故事始于2023年。当时,加州大学伯克利分校Sky Computing Lab的一群研究生和教授发起了一个开源项目,命名为Chatbot Arena。
创始人包括伯克利计算机科学教授Ion Stoica(Databricks联合创始人)、研究生Anastasios Angelopoulos(现任CEO)和Wei-Lin Chiang(现任CTO)。
他们的初衷很简单:让网友匿名比较不同AI聊天机器人的回答,看看哪个更受青睐。
没想到,这个项目迅速走红,成为AI圈最受欢迎的众包基准平台。
短短三年,Chatbot Arena积累了大量用户。2025年5月,项目正式转型为营利性公司,更名为LMArena,并完成1亿美元种子轮融资,估值6亿美元。
关键转折发生在2026年1月6日——就在昨天!
LMArena宣布完成1.5亿美元新一轮融资,由Felicis和加州大学投资臂联合领投,Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等知名机构跟投。
公司估值直接跃升至17亿美元,总融资额超过2.5亿美元!
如今,LMArena月活跃用户已超500万,覆盖150个国家,每月产生超过6000万次对话。
这些用户就像选秀节目的“全民制作人”。就连最顶尖的AI实验室,也会悄悄把最新模型送来接受考验。
从一个学术小实验,到硅谷新贵,LMArena用三年时间完成了许多选秀冠军都羡慕的逆袭。
但真正让它火遍全球的,正是那个简单却让人上瘾的“盲盒PK”投票机制。
选秀节目的高潮是舞台公演和观众投票。LMArena的“公演舞台”同样刺激:它叫Arena模式,核心就是一个字——盲!
打开lmarena.ai,进入对战模式,随意输入一个问题,系统会随机匹配两个匿名AI模型,同时给出答案。
你完全不知道答案来自哪个模型,只能凭直觉投票。投完票后,网站才会揭晓:哦,原来左边是Gemini-3-Pro,右边是Grok-4.1!
这种形式像拆盲盒一样——公平又令人上瘾。
总得票数会被纳入评分体系。LMArena采用Elo评分系统实时计算,每赢一次加分,输了扣分。
7天前的总分榜单,Gemini-3-pro稳居榜首
总得分汇总后,还会公开不同类别的榜单:文本对话、网页开发、视觉理解、文本生成图像、图像编辑、搜索,甚至文本/图像生成视频。
在热门类别里,Gemini-3-Pro在文本和视觉领域遥遥领先,Grok-4.1-thinking紧追不舍,而图像编辑中GPT-Image-1.5和Gemini的变种轮流霸榜。
为何一场“选秀比赛”能吸引这些顶级模型下场?CEO Anastasios Angelopoulos揭示了真相:
领先的AI公司选择我们,是因为他们自己都很难判断模型究竟好不好。
还没公开发布的新模型,都会偷偷托管到LMArena先测试一番,根据网友反馈快速迭代。
网友也不仅仅是实验的参与者,甚至还有点爽——无需技术背景,上手几分钟就能当“全民制作人”,把喜欢的AI送上C位。
数百万张选票汇聚成热搜排行,谁上谁下,全看网友心情。
选秀节目再火,也难免遭遇“黑幕”质疑和粉丝撕X。LMArena同样不例外——它一出道就卷入各种争议,有人喊“太民主了”,有人骂“太混乱了”。
吐槽最多的,是众包投票容易被操纵。
2025年,一篇论文直接曝出黑幕:Meta在Llama 4发布前,偷偷提交了36个私有变体模型,反复测试“刷分”,成功影响了排行榜。
研究者来自Cohere、Stanford、MIT等机构,指出顶级实验室能通过多次私测优化,中小玩家根本玩不起。
类似指控还有:某些大公司被怀疑刷票或优先托管新模型,让排行榜看起来“偏心”。
还有人认为,网民投票不够专业。随便一个网友的票,怎么能跟专家比?
这就牵扯出最大竞争对手——Scale AI。Scale的评价方式完全不同:他们花大钱雇佣付费专家,比如律师、教授、医生,来给AI答案打分。
2025年9月,Scale直接推出“Seal Showdown”平台,公开叫板 LMArena,宣称自己的方法更具代表性、更严谨,避免了众包的噪音和偏见。
联合创始人Ion Stoica去年接受采访时曾表示:
“最高质量的评估——黄金标准——就是让人们在自己熟悉的话题上投票。”
他们认为,用户对自家问题最懂,能给出最诚实的反馈;付费专家反而可能存在偏见或不接地气。
而且,全球150国用户的多样性,让排行榜更全面,避免了单一文化霸权。
争议归争议,LMArena的排行榜还是成了行业事实标准——大公司照样抢着上。
但选秀不会止步于打投,LMArena已经在酝酿大招。
选秀冠军出道后,最令人期待的莫过于“后续规划”:开演唱会、拍综艺、接代言,还是转型演员?
LMArena也一样——它不满足于只办比赛,已经在准备进化成AI界的“全能经纪公司”。
新一轮1.5亿美元融资,主要就是砸在这上面。
公司公告明确表示,资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级AI评估服务。
以后,LMArena不仅让网友玩盲测,还会为OpenAI、Google、xAI这样的大厂提供付费专业评估,帮他们跑模型、收集反馈、生成报告,甚至深度定制基准测试。
LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(人类反馈强化学习)。
把“好回答”当奖励、“差回答”当惩罚,让AI像练习生苦练舞蹈一样,不断优化自己。
投资者、Felicis合伙人Peter Deng在采访中直言:
“一旦成为事实上的基准层,产品自然会扩展。真正价值在于与AI实验室的深度合作——结合他们的内部数据和我们的比较外部数据。”
这场“AI创造营”才刚刚开播,高潮还在后头。
LMArena用三年时间证明了一个疯狂的事实——在AI时代,众包的力量能碾压传统专家,民主投票能成为最锋利的标尺。
更重要的是,它把我们从旁观者变成了主角。你的每一张票,不只决定了今天的排行榜C位,还可能在悄无声息中塑造明天的超级AI。
ChatGPT、Grok、Gemini……谁能持续霸榜,谁又会突然被黑马反超,全看我们这些“全民制作人”的心情。
AI的未来不再遥远,它就藏在你的下一票里。
参考资料:
https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi
本文由主机测评网于2026-03-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260331524.html