为应对大模型的高算力消耗,英伟达推出8B模型Orchestrator,化身「拼好模」,通过组合工具实现降本增效,仅用30%的预算,在HLE上取得了37.1%的佳绩。
近期,NVIDIA Research发现,通过适当微调,小模型已能「指挥」大模型。
英伟达研究团队的新模型Orchestrator,仅80亿参数(8B),不仅提高了工具类AI智能体的准确率,降低了成本,还能精准对齐用户的偏好。
在HLE基准测试中,Orchestrator以37.1%的高分超越GPT-5(35.1%),效率提升2.5倍。
在tau2-Bench和FRAMES测试中,Orchestrator同样大幅领先GPT-5,成本仅为后者的30%左右。
多项指标显示,Orchestrator实现了性能与成本的最佳平衡,并能出色地泛化至未见过的工具中。
预印本链接:https://arxiv.org/abs/2511.21689
面对如Humanity’s Last Exam(HLE)这类超难综合推理考试,现有大模型虽「涉猎广泛」,但在深度推理+控制成本方面显得力不从心。
单一大模型(如GPT-5)在调用搜索、代码解释器等基础工具时,难以同时做到准确、经济、可控。
为降低成本,业界首先想到的是:别让最强模型承担一切,设个「调度者」分配任务。
然而,主流大模型作为调度者的结果却出人意料:
当GPT-5做调度时,98%的请求仍由GPT-5或GPT-5-mini处理;
换成Qwen3-8B时,当它拿不准时,73%的任务直接转给GPT-5。
换句话说:我们以为打造了「调度者」,结果只是个「转接电话的前台」。
使用不同模型作为调度者后,各模型的任务分配情况。
这证明仅通过提示词,无法让常见大模型成为合格的调度者。
而ToolOrchestra通过解耦「智能」,重构为「轻量调度中枢+异构能力工具集」的复合系统,开创了新的模型与工具协同范式。
接下来,让我们看看Orchestrator是如何训练的。
想象一下:过去的大模型如同高端餐厅,全靠「米其林主厨」(GPT-5)从头炒到尾——从火候到摆盘,一切亲力亲为。
结果呢?由于单个token成本高昂,总成本飙升。
而英伟达新推出的「拼好饭」模式如同中央厨房,聪明的「调度店长」(8B小模型Orchestrator)驻守中央,店长不亲自炒菜,而是:
让街角「川菜小馆」(Qwen-Math-7B)爆炒回锅肉(数学题);
招「粤式点心师傅」(Coder-32B)蒸一笼虾饺(写代码);
实在拿不准?叫米其林主厨(GPT-5)来尝一口、定个味。
Orchestrator的架构图。
用于调度的8B小模型Orchestrator通过强化学习,根据用户声明的倾向,系统自动倾向本地部署模型。
训练过程中的奖励函数分为三部分:
三部分总和构成强化学习的目标函数。最终训练得到的Orchestrator会权衡、听指挥、懂省钱。
Orchestrator还包含类人分步求解机制:
本文由主机测评网于2026-05-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546144.html