【导读】由Prime Intellect推出的INTELLECT-3模型,在数学、编程等多项评测中均达到同参数规模最优水平。该项目的核心目标是将前沿模型训练技术栈开放给研究社区,从而加速大规模强化学习(RL)的普及和进步。
日前,Prime Intellect公司正式对外发布了其最新成果——INTELLECT-3模型。
该模型是一个参数规模达1060亿的混合专家(MoE)架构,完全依托Prime Intellect自研的强化学习技术栈完成训练。
在数学、编程、科学推理等多个基准评测中,INTELLECT-3均取得了同体量模型的领先成绩,部分指标甚至超过了参数规模更大的前沿模型。
Prime Intellect已将完整的训练流程全面开源,涵盖模型权重、训练框架、数据集、RL环境以及评测体系,旨在促进大规模强化学习的开放研究与协作。
INTELLECT-3所采用的训练软件和基础设施,与即将在Prime Intellect平台上面向公众开放的版本保持完全一致。
这也就意味着,今后任何个人或企业都将具备对顶尖模型进行后训练的能力。
INTELLECT-3是一款拥有1060亿参数的混合专家(MoE)模型,它在GLM 4.5 Air的基础上进行了监督微调(SFT)与强化学习训练。
在数学、编程、科学及推理类基准测试中,该模型均实现了同参数量级别的最佳性能。
训练过程中,Prime Intellect采用了以下关键组件:
INTELLECT-3完整采用PRIME-RL进行端到端训练。
该框架与Verifiers环境深度整合,支撑从合成数据生成、监督微调、强化学习到评估的整个后训练流程。
通过与Environments Hub的紧密连接,训练系统能够顺畅访问持续扩展的环境与评测任务集合。
PRIME-RL最显著的特色是全分布式(async-only)设计。
研究团队在上一代INTELLECT-2时就已经明确:
RL的未来必然走向分布式,即始终处于轻微off-policy的状态。
因为在长时序智能体rollout过程中,分布式架构是唯一能够避免速度瓶颈、真正实现训练规模扩展的方式。
过去6个月,研究团队重点开展了大量关于性能、稳定性及大规模效率的消融实验,INTELLECT-3正是这些研究的成果结晶。
Prime Intellect还将在即将上线的Lab平台提供托管式PRIME-RL,使访问者无需处理复杂基础设施即可进行大规模RL训练。
INTELLECT-3的训练环境由Verifiers库构建,并托管于Environments Hub,这是Prime Intellect面向社区的RL环境与评测中心。
Verifiers是目前领先的开源工具,用于为模型构建RL环境与评测任务。
它提供模块化、可扩展的组件,让复杂的环境逻辑也能以简洁方式描述,同时保持极高的性能与吞吐量。
传统的RL框架通常将环境强绑定在训练仓库中,导致版本管理、消融实验与外部贡献都不方便。
Environments Hub则将基于Verifiers的环境作为独立、可锁定版本的Python模块发布,并统一入口点,使任务可以独立版本化、共享与持续迭代。
INTELLECT-3使用的所有环境和评测,均已在Environments Hub上公开。
为支持强化学习,Prime Intellect大幅扩展并升级了自研的Sandboxes基础设施。
在数千条并发rollout中安全执行外部代码,需要一个具备亚秒级启动、毫秒级执行延迟的容器编排层。
虽然Kubernetes提供了底层能力,但常规架构难以满足这种高速度训练的需求。
Prime Sandboxes能够绕过Kubernetes控制面板,通过Rust直接与pod通信,实现接近本地进程的延迟;即使在大规模并发下也能在10秒内启动,且每个节点可稳定运行数百个隔离沙箱。
在Verifiers中,研究人员将沙箱启动与模型首轮推理并行,从而完全消除代码执行前的可感知等待时间。
研究人员在64个互联节点上部署了512张NVIDIA H200 GPU。
最大的工程挑战是如何在可能出现硬件故障的分布式系统中保持确定性与同步。
INTELLECT-3主要分为两个阶段:
基于GLM-4.5-Air的监督微调,以及大规模RL训练。
两个阶段以及多轮消融实验均在512张H200 GPU上运行,总共持续两个月。
研究人员训练了覆盖数学、代码、科学、逻辑、深度研究、软件工程等类别的多样化RL环境,以提升模型的推理与智能体能力。
所有环境均已在Environments Hub上公开。
所有基准测试也都提供了标准化且验证过的实现。
未来,Prime Intellect的工作重点包括:
Prime Intellect正在构建开放的超级智能技术栈,致力于将训练前沿模型的能力交到每个人手中。
INTELLECT-3也证明了:即使不是大型实验室,同样可以训练出与顶尖团队同台竞技的模型。
参考资料:https://www.primeintellect.ai/blog/intellect-3
本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328213.html