近期,一个名为Rnj-1的小模型在AI圈内掀起了波澜。它虽只有80亿参数,却由Ashish Vaswani与Niki Parmar创办的Essential AI Labs推出,成为挑战大模型时代的先锋。
作为2017年著名论文《注意力就是你所需要的一切》的作者之一,他们再次引领了AI领域的变革。以上八位作者中的Ashish与Illia共同设计并实现了首个Transformer模型,为AI的发展奠定了基石。 Niki在研究的早期阶段负责设计、实现、调优并评估了大量模型变体,为Transformer模型的优化和验证做出了重要贡献。 如今,ChatGPT、Gemini、Claude等耳熟能详的大模型都采用了Transformer框架。然而,Vaswani和Parmar却开始质疑这一主流观点,他们认为: 模型不一定越大就越聪明。 他们认为,从算力效率的角度来看,大模型时代已经结束,小模型时代已经开启。Rnj-1正是这一理念的代表,它展示了另一种可能性。 随着AI领域的投资增加、模型规模扩大、训练成本上升,Vaswani担忧巨额资金的涌入会阻碍技术本身的发展。他强调: 「少数公司掌控着先进AI技术的生产、节奏和方向。他们决定了AI的演化方式,也决定了谁能从中受益……我们不能让封闭式的AI开发阻碍我们探索新的前沿。」 Essential AI Labs及其首款开源模型Rnj-1正是在这种理念下诞生的,致力于构建一个健康、开放的生态。 Rnj-1采用全局自注意力机制(global self-attention)和YaRN技术,使其在小规模模型中表现出色。在代码生成、智能体能力、数学与科学推理等方面均展现出卓越的性能。 代码生成 在HumanEval+、MBPP+等算法类代码任务中,Rnj-1的表现与最强同规模开源模型相媲美,甚至超越更大的GPT OSS 20B。 智能体能力 Rnj-1 Instruct在智能体式编码任务中表现尤为突出,在SWE-bench上的表现比同尺寸模型强出近一个数量级,已接近大规模模型的水平。 数学与科学推理 在AIME'25等数学任务中,Rnj-1的表现与最强开源模型相当。同时,它对量化也非常稳健,能在更便宜、更省电的显卡上高效运行,模型质量几乎不受影响。 Essential AI今年2月做出了一个重要决定:专注于基础能力的本身。他们更倾向于提升模型能力,而不是单纯追求模型的规模。 Essential AI在早期预训练阶段便观察到模型出现反思与探索式推理的迹象,这印证了「强预训练是下游成功基础」的判断。他们相信强大的预训练本身就会产生推理能力。 为了提升模型的「可测能力」,研究团队通过数据分类研究,得到了一种新的「带重复惩罚的数据分布聚类与混合方法」,这种方法尤其提升了模型在STEM方面的能力。 开源平台Essential AI的创建以及Rnj-1的推出,旨在推动美国AI开源领域的发展。这一举措有望在大模型「越大越好」的行业格局之外,探索开放、轻量化的新路径,加速AI人人可用时代的到来。
Vaswani的担忧与Rnj-1的诞生
一把「瑞士军刀」式的小模型
回到起点,不想再做「宇宙巨兽」了
开源生态:探索开放、轻量化的新路径
本文由主机测评网于2026-05-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546664.html