当前位置:首页 > 科技资讯 > 正文

NVIDIA Orchestrator:高效成本,卓越性能

为应对大模型的高算力消耗,英伟达推出8B模型Orchestrator,化身「拼好模」,通过组合工具实现降本增效,仅用30%的预算,在HLE上取得了37.1%的佳绩。

近期,NVIDIA Research发现,通过适当微调,小模型已能「指挥」大模型。

英伟达研究团队的新模型Orchestrator,仅80亿参数(8B),不仅提高了工具类AI智能体的准确率,降低了成本,还能精准对齐用户的偏好。

在HLE基准测试中,Orchestrator以37.1%的高分超越GPT-5(35.1%),效率提升2.5倍。

在tau2-Bench和FRAMES测试中,Orchestrator同样大幅领先GPT-5,成本仅为后者的30%左右。

多项指标显示,Orchestrator实现了性能与成本的最佳平衡,并能出色地泛化至未见过的工具中。

NVIDIA Orchestrator:高效成本,卓越性能 Orchestrator 8B模型 工具调度 复合AI 第1张

预印本链接:https://arxiv.org/abs/2511.21689

为何「强模型+工具」还不够好?

面对如Humanity’s Last Exam(HLE)这类超难综合推理考试,现有大模型虽「涉猎广泛」,但在深度推理+控制成本方面显得力不从心。

单一大模型(如GPT-5)在调用搜索、代码解释器等基础工具时,难以同时做到准确、经济、可控。

为降低成本,业界首先想到的是:别让最强模型承担一切,设个「调度者」分配任务。

然而,主流大模型作为调度者的结果却出人意料:

当GPT-5做调度时,98%的请求仍由GPT-5或GPT-5-mini处理;

换成Qwen3-8B时,当它拿不准时,73%的任务直接转给GPT-5。

换句话说:我们以为打造了「调度者」,结果只是个「转接电话的前台」。

NVIDIA Orchestrator:高效成本,卓越性能 Orchestrator 8B模型 工具调度 复合AI 第2张

使用不同模型作为调度者后,各模型的任务分配情况。

这证明仅通过提示词,无法让常见大模型成为合格的调度者。

而ToolOrchestra通过解耦「智能」,重构为「轻量调度中枢+异构能力工具集」的复合系统,开创了新的模型与工具协同范式。

接下来,让我们看看Orchestrator是如何训练的。

Orchestrator:多轮执行与自定义RL

想象一下:过去的大模型如同高端餐厅,全靠「米其林主厨」(GPT-5)从头炒到尾——从火候到摆盘,一切亲力亲为。

结果呢?由于单个token成本高昂,总成本飙升。

而英伟达新推出的「拼好饭」模式如同中央厨房,聪明的「调度店长」(8B小模型Orchestrator)驻守中央,店长不亲自炒菜,而是:

让街角「川菜小馆」(Qwen-Math-7B)爆炒回锅肉(数学题);

招「粤式点心师傅」(Coder-32B)蒸一笼虾饺(写代码);

实在拿不准?叫米其林主厨(GPT-5)来尝一口、定个味。

NVIDIA Orchestrator:高效成本,卓越性能 Orchestrator 8B模型 工具调度 复合AI 第3张

Orchestrator的架构图。

用于调度的8B小模型Orchestrator通过强化学习,根据用户声明的倾向,系统自动倾向本地部署模型。

训练过程中的奖励函数分为三部分:

  1. 结果:答对+1,否则0;由GPT5判断;
  2. 效率:对应金钱成本和时间延迟;
  3. 对齐用户工具偏好向量。

三部分总和构成强化学习的目标函数。最终训练得到的Orchestrator会权衡、听指挥、懂省钱。

Orchestrator还包含类人分步求解机制:

  1. 通过COT思维链分析当前状态,规划下一步的结构化工具调用;
  2. 通过环境执行(如数学推导、代码执行输出)并返回结果;
  3. 多轮循环是Orchestrator的另一创新点。

NVIDIA Orchestrator:高效成本,卓越性能 Orchestrator 8B模型 工具调度 复合AI 第4张

AGI的「务实主义革命」

  1. 在HLE上取得37.1%准确率(vs. GPT-5的35.1%),成本仅9.2美分(为GPT-5的30%);
  2. 在τ2-Bench上有80.2%正确率,仅约40%的步骤调用GPT-5;
  3. 在FRAMES得分76.3%(vs. SOTA 74.2%),延迟降至8.2分钟(为GPT-5的41%)。
NVIDIA Orchestrator:高效成本,卓越性能 Orchestrator 8B模型 工具调度 复合AI 第5张

复合AI第一步

  1. 近年来,AI界一直在讲述一个故事:先造出尽可能大的通用大脑,再通过提示词和少量样本临时「装扮」成各种专家。
  2. 但随着研究的推进,这一故事开始松动:多个模型和工具协同工作的「复合AI系统」,在安全性、速度和成本上超越单一大模型。