当前位置:首页 > 科技资讯 > 正文

OneThinker:统一多模态视觉推理通才模型的全面突破

在31个主流基准测试中表现卓越,并精通10类核心任务,视觉模型领域的“通才”模型正式亮相!

香港中文大学MMLab与美团研究团队开源推出了OneThinker——这是一个基于强化学习的统一多模态视觉推理通才模型,能够覆盖图像与视频两种模态下的十类核心视觉任务。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第1张

在31项主流视觉任务评估中,OneThinker均展现出优异性能。它不仅能在多任务训练中实现知识互补与促进,还能在未曾接触的任务上做出合理推理,初步体现了通才模型的强大泛化能力。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第2张

尽管以Vision-R1、Video-R1、VLM-R1等为代表的工作,在图像问答、视频理解、目标检测等任务上已取得显著进展,但这类强化学习模型大多存在一个局限:仅能处理单一模态或单一任务。模态与任务之间缺乏关联,导致推理能力被割裂,难以泛化到实际应用中。

那么,OneThinker是如何突破这些限制的呢?

从“专才模型”迈向“通才系统”

现实世界中的视觉数据复杂多样,往往同时包含静态图像与动态视频信息。同时,视觉任务类型也高度多样化,例如问答、定位、分割、追踪等。

在这种背景下,传统的“单任务、单模态”强化学习思考模型架构面临两个根本性挑战:

  1. 难以统一建模现实复杂场景

真实应用常需同步理解图像与视频内容,并完成多类任务协同,专才模型难以满足这种综合需求。

  1. 知识隔离,迁移能力受限

模型之间彼此独立,缺乏知识共享机制,限制了推理能力在任务之间的泛化与迁移。

为应对这一挑战,研究团队提出了“通才思考模型”OneThinker,旨在具备统一理解和推理不同模态、任务的能力。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第3张

为了让OneThinker真正实现统一推理不同模态和任务的目标,研究团队从两方面着手:一是构建统一的数据体系,二是优化多任务的训练方法。

多模态统一任务数据构建

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第4张

构建具备通用视觉推理能力的模型,首先需解决数据覆盖不足、任务割裂的问题。

为此,研究团队精心设计了一套数据集,分别用于模型的SFT冷启动与强化学习训练:

  • OneThinker-600k

覆盖图像与视频两种模态,涵盖图像问答、视频问答、时空定位、分割、跟踪等十类核心视觉任务,作为强化学习阶段的主力训练数据。

  • OneThinker-SFT-340k

基于Seed1.5-VL对OneThinker-600k生成高质量的思维链样本并进行过滤,用于SFT阶段的冷启动。

通过图像与视频任务的联合训练,OneThinker能够在空间与时间维度上建立统一的推理能力,从而实现跨模态、多任务的通用理解。

EMA-GRPO:提升多任务RL训练稳定性

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第5张

传统强化学习方法在多任务、多模态场景中存在显著的训练不平衡问题。

不同任务之间的奖励结构差异较大(例如检测任务的奖励稠密,而问答类任务往往稀疏),容易导致样本间或任务间训练不平衡。

为此,OneThinker引入了全新的EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization) 强化训练算法,通过对各任务奖励标准差进行滑动平均归一化,解决了两个层面的不平衡问题:

任务内样本权重不均:缓解模型对低方差样本的过度依赖;

任务间梯度贡献失衡:防止稀疏任务在反向传播中占据主导,抑制其他任务学习。

实验结果表明,EMA-GRPO能显著提升强化学习阶段的训练稳定性与收敛速度,为大规模统一推理模型的多任务训练提供了有效支撑。

实验结果

为全面评估OneThinker的能力,研究团队在图像与视频两个模态下不同任务的31个主流 benchmark上进行了系统测试,覆盖图像问答、视频理解、空间定位、时间定位、目标分割、目标追踪等10类核心视觉任务。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第6张

OneThinker在图像问答任务中表现突出,MMMU达到70.6%,MathVerse达到64.3%;在视频理解上,VideoMMM取得了66.2%的成绩。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第7张

在时间定位和空间定位任务中,模型在RefCOCO testA的空间定位任务中也取得了93.7%的高分,Charades和ActivityNet的R@0.5分别达到68.3和43.6。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第8张

同时,OneThinker在追踪任务GOT-10k上AO达到73.0, 在视频分割任务ReasonVOS上J&F得分为54.9,体现了其在感知类任务中的稳健表现,更多任务表现请参考原文。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第9张

研究团队还发现,在某些任务和模态之间,OneThinker能实现有效的知识迁移与共享,不同任务之间相互促进。

OneThinker:统一多模态视觉推理通才模型的全面突破 多模态视觉模型 强化学习优化 任务泛化 统一推理框架 第10张

此外,OneThinker在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务,体现出强大的任务泛化能力。

可以说,OneThinker的推出,不仅展示了强化学习在统一多模态、多任务视觉推理上的潜力,也为构建真正的视觉通才模型提供了清晰的路径。

在大模型不断走向多模态、强推理、通才化的趋势下,OneThinker的工作或许只是一个起点,但它所验证的方向,正在成为通往通用视觉智能(AGI)的关键一环。

更多细节,请参考原文。

论文地址:https://arxiv.org/pdf/2512.03043

代码地址:https://github.com/tulerfeng/OneThinker