当前位置:首页 > 科技资讯 > 正文

小模型Rnj-1挑战大模型时代:智慧与效率的平衡点

近期,一个名为Rnj-1的小模型在AI圈内掀起了波澜。它虽只有80亿参数,却由Ashish Vaswani与Niki Parmar创办的Essential AI Labs推出,成为挑战大模型时代的先锋。

小模型Rnj-1挑战大模型时代:智慧与效率的平衡点 小模型 Rnj-1 AI开源 Essential AI Labs 第1张

作为2017年著名论文《注意力就是你所需要的一切》的作者之一,他们再次引领了AI领域的变革。以上八位作者中的Ashish与Illia共同设计并实现了首个Transformer模型,为AI的发展奠定了基石。

小模型Rnj-1挑战大模型时代:智慧与效率的平衡点 小模型 Rnj-1 AI开源 Essential AI Labs 第2张

Niki在研究的早期阶段负责设计、实现、调优并评估了大量模型变体,为Transformer模型的优化和验证做出了重要贡献。

小模型Rnj-1挑战大模型时代:智慧与效率的平衡点 小模型 Rnj-1 AI开源 Essential AI Labs 第3张

如今,ChatGPT、Gemini、Claude等耳熟能详的大模型都采用了Transformer框架。然而,Vaswani和Parmar却开始质疑这一主流观点,他们认为:

模型不一定越大就越聪明。

小模型Rnj-1挑战大模型时代:智慧与效率的平衡点 小模型 Rnj-1 AI开源 Essential AI Labs 第4张

他们认为,从算力效率的角度来看,大模型时代已经结束,小模型时代已经开启。Rnj-1正是这一理念的代表,它展示了另一种可能性。

Vaswani的担忧与Rnj-1的诞生

随着AI领域的投资增加、模型规模扩大、训练成本上升,Vaswani担忧巨额资金的涌入会阻碍技术本身的发展。他强调:

「少数公司掌控着先进AI技术的生产、节奏和方向。他们决定了AI的演化方式,也决定了谁能从中受益……我们不能让封闭式的AI开发阻碍我们探索新的前沿。」

Essential AI Labs及其首款开源模型Rnj-1正是在这种理念下诞生的,致力于构建一个健康、开放的生态。

一把「瑞士军刀」式的小模型

Rnj-1采用全局自注意力机制(global self-attention)和YaRN技术,使其在小规模模型中表现出色。在代码生成、智能体能力、数学与科学推理等方面均展现出卓越的性能。

代码生成

在HumanEval+、MBPP+等算法类代码任务中,Rnj-1的表现与最强同规模开源模型相媲美,甚至超越更大的GPT OSS 20B。

智能体能力

Rnj-1 Instruct在智能体式编码任务中表现尤为突出,在SWE-bench上的表现比同尺寸模型强出近一个数量级,已接近大规模模型的水平。

数学与科学推理

在AIME'25等数学任务中,Rnj-1的表现与最强开源模型相当。同时,它对量化也非常稳健,能在更便宜、更省电的显卡上高效运行,模型质量几乎不受影响。

回到起点,不想再做「宇宙巨兽」了

Essential AI今年2月做出了一个重要决定:专注于基础能力的本身。他们更倾向于提升模型能力,而不是单纯追求模型的规模。

Essential AI在早期预训练阶段便观察到模型出现反思与探索式推理的迹象,这印证了「强预训练是下游成功基础」的判断。他们相信强大的预训练本身就会产生推理能力。

为了提升模型的「可测能力」,研究团队通过数据分类研究,得到了一种新的「带重复惩罚的数据分布聚类与混合方法」,这种方法尤其提升了模型在STEM方面的能力。

开源生态:探索开放、轻量化的新路径

开源平台Essential AI的创建以及Rnj-1的推出,旨在推动美国AI开源领域的发展。这一举措有望在大模型「越大越好」的行业格局之外,探索开放、轻量化的新路径,加速AI人人可用时代的到来。