今年八月,代号“纳米香蕉”的AI图像生成模型在LMArena文生图像榜单中夺冠,带动该社区流量暴涨十倍,月活跃用户突破300万。在盲测启动后的短短两周内,它吸引了超过500万次总投票,并单独赢得250万+直接投票,创下历史最高参与记录。自2023年推出以来,LMArena已成为谷歌、OpenAI等AI巨头扎堆角逐的竞技场。
8月,一款名为“纳米香蕉”的神秘AI图像编辑器轻松登顶Image Edit Arena榜首,直接引爆LMArena平台流量:
流量暴增10倍,月活用户达300万以上。
该模型在LMArena启动盲测后,仅在两周内就累计获得超500万次总投票,其中直接投票数突破250万,创造了平台史上最高的用户参与度。
nano‑banana的神秘背景,在LMArena社区引发了广泛猜测。
在谷歌正式认领“纳米香蕉”并将其命名为Gemini 2.5 Flash Image之前,已有不少网友推断谷歌是该模型背后的真正所有者。
还有网友分享了在LMArena上免费使用正版“纳米香蕉”的方法,无需登录即可体验。
LMArena不仅让用户能“近距离”接触最新AI模型,还为大模型比拼提供了一个真实的“罗马竞技场”,让谷歌、OpenAI等公司的最新模型在此真刀真枪对决,接受成千上万用户的检验。
用户的投票和反馈直接决定大模型的排名,同时也为厂商迭代模型提供了真实用例数据,帮助其针对性改进。
nano‑banana的爆红,使LMArena流量飙升10倍,据其首席技术官Wei-Lin Chiang证实,该站月活跃用户已超过300万。
无论是谷歌还是LMArena,都成为这场流量盛宴中的最大赢家。
LMArena联合创始人Wei-Lin Chiang和Anastasios Angelopoulos
LMArena的前身是Chatbot Arena,最初起源于2023年伯克利的一项研究项目,随后更名为LMArena。
Chatbot Arena类似一个用户社区评测中心,它颠覆了通过传统学科测试评估AI技术的方式,将评价权交给社区用户,采用匿名、众包的成对比较来评估大模型。
用户还可以自主选择模型进行测试。
ChatGPT、Llama 1等大模型的发布,为Chatbot Arena的出现创造了契机。
当时,业界缺乏有效的大模型评测方法,因此Chiang与伯克利研究人员Anastasios Angelopoulos以及Ion Stoica共同创办了Chatbot Arena,即后来的LMArena。
他们的愿景是打造一个以社区为中心的公开网络平台,邀请所有人参与评测。
很快,Chatbot Arena吸引了大量关注,成千上万的用户前来投票,团队利用这些数据整理出第一版排行榜。
最初上榜的多为开源模型,商用模型仅包括Claude和GPT。
随着更多模型加入,Chatbot Arena的关注度持续攀升。各AI大厂纷纷请求加入排名,并竞相争夺榜首位置。
Chatbot Arena的走红,使其被众多科技公司视为AI技术风向标,它们像华尔街交易员盯盘一样密切关注榜单变化。
这一切让Meta AI产品管理总监Joseph Spisak深感惊讶,他惊叹于几个学生能产生如此重大的影响力。
Chiang希望LMArena成为一个对所有人开放的平台,鼓励更多用户测试模型、表达偏好,帮助社区和模型提供方基于真实用例评估AI。
正如Chiang所说,在LMArena社区中,最受欢迎、增长最快的模型往往源于真实场景用例,“纳米香蕉”就是最佳例证之一。
匿名登场和盲测机制让nano-banana在LMArena自然爆红,当时普通用户无法手动选择它,只能在Battle中随机遇到,社区内大量帖子讨论“刷多局才等到香蕉”的体验。
目前,Gemini 2.5 Flash Image已成为LMArena的“双料冠军”,同时登顶Image Edit Arena和Text-to-Image两个榜单。
从LMArena排名中,可以看出各领域表现最佳的模型。
例如,在编码领域,Claude排名领先;在创意领域,Gemini位居前列。
或许是因Meta内部AI团队调整,Chiang未听到太多关于Llama 4的消息。但他认为Meta正在构建的“全模型”,可能代表未来行业趋势。
OpenAI、谷歌、Anthorpic等大模型厂商,为何热衷将模型放到LMArena等排行榜上?
是为了品牌曝光,还是获取用户反馈以改进模型?
显然,曝光与背书是最直观的短期效应。
LMArena是业内关注度最高的公开榜之一,累计投票已达数百万次。科技媒体也频繁引用其数据,这为大模型品牌带来显著口碑与流量红利。
其次,是更贴近“真实使用”的用户反馈。
LMArena采用匿名、随机配对投票,并结合Elo计分,减少了“品牌光环”“位置偏置”等主观影响,真实反映用户对模型回答质量的评价。
Elo系统最初用于国际象棋计分,也是LMArena排行榜的核心机制。在该规则下,每个模型都有一个实力分数(Elo分),每场对战后根据结果和预期更新分数。
每次用户投票都成为一场对战,模型Elo分经过成千上万次对战收敛,排名能更真实地反映用户偏好。
此外,LMArena提供了跨厂商、跨开源/闭源的同台竞技舞台,天然带来高流量曝光,也为用户提供了更丰富的选型信息。
正如Chiang所言,他希望将LMArena打造成一个人人能参与、表达观点的开放空间。
这里的一切由社区机制驱动,鼓励用户提问和投票,表达对不同模型的评价。
对于大模型厂商,LMArena提供了一个宝贵的“照镜子”机会。
厂商可以清晰看到自己在各领域的排名,并获得LMArena基于社区反馈提供的报告和分析,从而详细评估模型表现,针对性提升能力。
当所有模型都接近现有基准测试时,还需要新的基准测试吗?
Chiang认为这非常必要,但核心原则是基准必须扎根于真实世界用例。
例如,超越传统基准测试,转向更贴近真实用户场景的基准,尤其是由善用AI工具的专业人士驱动的基准。
以LMArena最新推出的WebDev基准测试为例,用户可用提示词让模型搭建网站。这类基准能更好将AI技术与真实用例结合,加速实际场景落地。
针对MIT关于“大多数投资AI的公司未看到投资回报”的报告,Chiang认为这项研究很有意思。
他认为该研究反映了“将AI与真实用例紧密相连尤为重要”,这也正是他将LMArena平台扩展至更多行业的原因。
希望通过更多扎根真实用例的基准测试,弥合技术与实用场景的鸿沟,并提供可衡量的标准。
Chiang表示,LMArena的目标是利用平台数据理解模型局限性,保持数据研究流程透明,并公开数据,以推动社区平台持续建设。
对于大模型厂商和“用户观众”而言,这里是一个永不落幕的竞技场。
参考资料:
https://www.businessinsider.com/lmarena-cto-compare-ai-models-google-nano-banana-2025-9
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213521.html