当前位置：首页 > 科技资讯 > 正文

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向

主机测评网
科技资讯
2026-03-08
530

近期，一款仅有80亿参数的"迷你模型"在AI界掀起了热议浪潮。

这款名为Rnj-1的开源模型，由Ashish Vaswani与Niki Parmar共同创立的Essential AI Labs正式发布。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第1张

这两位正是2017年那篇里程碑式论文《注意力就是你所需要的一切》（Attention is All You Need）的核心作者。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第2张

上述八位作者贡献平等，其中Ashish与Illia携手设计并实现了首个Transformer模型，并深度参与了全部研究环节。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第3张

Ashish Vaswani

Niki则在研究初期主导了模型架构的探索与实验验证，负责设计、实现、调优并评估了大量模型变体，是架构创新的关键推动者之一。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第4张

Niki Parmar

如今，ChatGPT、Gemini、Claude、Llama等主流大模型几乎都基于Transformer架构构建。

这些早期开拓者在过去几年将整个行业引向了追求参数规模的AI军备竞赛。

前不久，Google DeepMind CEO哈萨比斯（Demis Hassabis）还断言，要实现通用人工智能（AGI），当前主流大模型必须将"规模扩张"推向极致。

他所谓的"规模扩张"涵盖更多数据、更强算力、更大模型，并强调这"至少是通往AGI的关键组件，甚至可能就是全部路径"。

哈萨比斯的观点在一定程度上代表了大模型领域由Transformer和Scaling Law催生的"越大越强"的主流信念。

7年后，同为Transformer论文作者的Ashish Vaswani和Niki Parmar开始向这一主流观点发起挑战：

模型的智能并不一定随规模线性增长。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第5张

至少从算力效率来看，正如这位网友所言：

「大模型时代已近黄昏，真正懂行的人正在开启小模型时代。」

在ChatGPT、Gemini、Claude之外，以Rnj-1为代表的小模型开辟了另一条发展路径。

Vaswani的忧虑与Rnj-1的诞生

过去几年，涌入AI领域的资金呈指数级增长，模型规模不断膨胀，训练成本水涨船高。

Vaswani认为，巨额资本的涌入可能反而阻碍技术创新，因为追求利润的企业逐渐从科学家和学者手中夺走了主导权：

「少数巨头掌控着先进AI的研发节奏和方向，他们决定了AI的演进方式，也决定了谁能从中受益……我们不能让封闭式开发阻碍我们探索新的前沿。」

Vaswani和Parmar希望推动构建一个健康、开放的人工智能生态，而非封闭的象牙塔尖。

Essential AI Labs及其首款开源模型Rnj-1正是在这种理念下应运而生。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第6张

Essential AI将构建前沿开源平台和智能工具作为自己的使命。

Rnj-1的名称致敬了著名数学家拉马努金（Srinivasa Ramanujan）。

据Essential AI官方介绍，这款从零训练的80亿参数模型，在代码、数学与"智能体"推理上可"对齐前沿水平"，并且能在消费级GPU上流畅运行，支持自由使用与修改。

一把"瑞士军刀"式的小模型

与动辄万亿参数的顶尖大模型相比，Rnj-1显得颇为低调。

它仅是一个80亿参数的小模型，上下文长度为32k，遵循开源Gemma 3架构。

既然不能在参数规模上正面抗衡，那就在技术上精益求精。

Rnj-1采用全局自注意力机制（global self-attention）和YaRN技术。

global self-attention如同给模型配了一双"全景眼"，无论输入多长，都能一次性全局感知。

而YaRN则像"长距离阅读辅助器"，让模型在32k上下文中依然保持清晰的推理能力。

Rnj-1的基础版与指令版在同尺寸开源模型中表现非常亮眼。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第7张

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第8张

代码生成

在HumanEval+、MBPP+等算法类代码任务，以及BigCodeBench这类综合性编程任务中，Rnj-1 Base与Instruct的表现可与最优秀的同规模开源模型一较高下，有时甚至超越更大的GPT OSS 20B。

智能体能力

Rnj-1 Instruct着重强化了智能体能力，在智能体式编码任务中尤为突出。

在SWE-bench测试中，Rnj-1 Instruct的表现比同尺寸模型强出近一个数量级，已逼近大规模模型的水平。

它会调用profiler（性能分析器）检查瓶颈，主动提出优化方案，甚至进行多轮迭代。

例如在Enamel这一考察高效算法实现的任务中，Rnj-1 Instruct超越了强力基线。

在伯克利函数调用排行榜（BFCL）中，Rnj-1 Instruct的工具使用能力也领先同类模型。

数学与科学推理

在AIME"25（高难度高中数学）中，Rnj-1 Instruct的数学能力可与最强开源模型匹敌。

Rnj-1 Base在Minerva-MATH上也与同规模模型持平。

在GPQA-Diamond（涵盖生物、物理、化学的高难度题目）上，Rnj-1的表现也接近同尺寸模型的领先水平。

量化稳定，质量无损

Rnj-1对量化非常稳健。

这意味着它能在更便宜、更省电的显卡上高速运行，模型质量几乎不受影响，真正实现人人可用。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第9张

从BF16到FP8再到NVFP4，在显著提升提示密集型工作负载的token吞吐量的同时，模型质量几乎不受影响。

Token吞吐量数据基于NVIDIA B200 GPU测得，其中KV Cache的数据类型设为FP8，批大小为128。

回归初心，拒绝追逐"宇宙巨兽"

今年2月，Essential AI做出了一个重要决定：

回归基础能力的本质。

在研究和产品之间，Essential AI更倾向于夯实模型能力。

DeepSeek R1发布后，业界热议强化学习的强大，但Vaswani认为，压缩是模拟智能的核心，而语言模型的预测式预训练才是更合理的路径。

Essential AI在早期预训练阶段便观察到模型出现反思与探索式推理的迹象，这印证了"强预训练是下游成功基础"的判断。

他们认为，强大的预训练本身就能孕育推理能力，而非依赖后期堆砌强化学习。

这是Essential AI迄今为止第一个也是最具根本性的战略选择。

Transformer论文作者另辟蹊径：80亿参数小模型Rnj-1挑战大模型霸权，开源轻量化或成AI新方向 Rnj-1 小模型 Transformer作者开源AI 第10张

上图记录了Essential AI在每个阶段所取得的进展。

Rnj-1是Essential AI从头训练的大模型。

他们希望大模型在学习阶段不仅是"看很多数据"，而是能自主对数据分类、转换、混合，形成更深层的理解。

这样模型的"可测能力"（如数学、代码、科学等可验证任务）会更强。

研究团队通过数据分类研究，得到了一种新的"带重复惩罚的数据分布聚类与混合方法"，尤其提升了模型在STEM（科学、技术、工程、数学）方面的表现。

此外，训练模型需要"优化器"来调整参数。

Essential AI证明了Muon优化器相较AdamW更高效，并开发了适配大模型的分片策略。

Essential AI的研究人员认为，大模型应不仅能理解代码，更要能模拟程序在不同环境中的执行行为，Rnj-1在这一方向上进行了大规模尝试。

为了让基础模型学会自动"改进代码"，研究人员还投入了"代码演化"的建模研究。

这些方向均在小模型上通过验证，显著提升了Rnj-1的工程能力。

在预训练末期，Essential AI团队确信Rnj-1已具备数学、编程与科学知识等潜在能力。

接下来的问题是如何通过适量监督微调，唤醒其指令遵循与复杂推理能力，并验证其在长对话与现实难题中的表现。

Essential AI在后训练方案上借鉴了YaRN长上下文中期训练、Nemotron以及简单智能体环境。

其后训练主要有三项任务：

研究定向数据对推理与智能体能力的影响；

团队亲自"上手体验"模型，观察质变；

收集下游反馈，为下一轮预训练提供依据

Vaswani认为，有许多令人难以抗拒的想法正在争夺研究团队的注意力。

比如，他们对条件计算、扩展并增强模型处理更长上下文的能力，以及低精度训练充满热情。

在中期内，Essential AI将继续推进压缩这一核心理念，拓展计划模拟的程序行为类型和范围，并推动代码演化。

Vaswani预计，诸如将强化学习等扩展性思路用于培养复杂推理能力的方法，将很快出现在Essential AI的路线图上。

在官方博客中，Vaswani引用了先驱计算机科学家Alan Perlis的话表达了自己的心声：

我认为，在计算机科学领域，我们必须始终让计算保持趣味性，这一点极其重要……

我认为，我们有责任不断拓展计算机的边界，引领它们走向新的方向，并让这种乐趣持续存在……

最重要的是，我希望我们不要变成传教士。不要觉得自己像个推销圣经的推销员。这世上那样的人已经太多了。你所了解的计算知识，别人终会学到。不要觉得成功计算的钥匙只掌握在你手中。

我相信并希望，你手中握有的是智慧：一种能够超越最初接触机器时的认知，看到它更多可能性，并让它变得更强的能力。

开源平台Essential AI的创建，以及此次Rnj-1的推出，旨在推动美国AI开源领域的发展，抢夺轻量化开源生态的话语权，目前这一领域正由中国企业主导。

开源生态，将推动大模型在"越大越好"的行业竞争格局之外，探索开放、轻量化的新路径，加速AI人人可用时代的到来。

参考资料：

https://www.bloomberg.com/news/articles/2025-12-08/transformer-paper-authors-at-ai-startup-debut-open-source-model?srnd=phx-ai%20

https://www.essential.ai/research/rnj-1