多模态大模型首次突破像素级推理技术,一举整合目标指代、像素分割和区域推理三大核心功能,实现了前所未有的精细视觉理解能力。
当前AI“看图说话”已变得简单,但即便是先进的GPT-5或Gemini 2.5 Pro,仍局限于整体图像理解,难以执行精准的目标识别和复杂推理。
针对这一挑战,香港理工大学与腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel,重新定义了视觉推理的边界。
无需多言,直接展示UniPixel的强大效果:
仅凭UniPixel单一模型,即可完成目标指代(Referring)、像素级分割(Segmentation)与区域推理(Reasoning)三大任务,兼具灵活性、精确性和可扩展性。
该研究论文已被NeurIPS 2025接收,且代码、数据和演示全部开源,推动社区共同进步。
以下是更详细的技术解析。
传统视觉问答或描述系统大多依赖整体图像或视频信息进行推理,缺乏对图中“特定区域”或“指定目标”的精确感知能力。
这不仅限制了在医疗诊断、自动驾驶和人机交互等实际场景中的应用,也难以满足用户对“可控性”与“可解释性”的高阶需求。
以日常任务为例:“请指出图中坐在左侧的人并描述他在做什么。”人类能快速聚焦左侧目标,通过视角、行为和上下文进行判断与描述,但传统LMM因缺乏区域指引和显著性建模,往往难以准确回答。
UniPixel通过引入“对象记忆机制(Object Memory Bank)”与支持点、框、掩码三类视觉提示的统一视觉编码方式,实现了对用户提示的“感知—记忆—推理”全流程支持。
区别于现有简单分割和区域级理解模型,UniPixel不仅能识别用户所指目标,还能将该目标作为上下文显式纳入后续对话,并输出与之强关联的分割结果、语言回答或描述内容。
△
为实现这一目标,UniPixel在架构设计上进行了系统性革新。
如下图所示,其整体框架基于Qwen2.5-VL模型,支持图像与视频输入,并具备对文本、点、框、掩码等多种提示的感知与处理能力。
用户可输入图像或视频、文本提示以及可选视觉提示,模型则输出自然语言回答与可选的时空掩码(spatial-temporal mask),实现基于视觉细节的交互。
△
为赋予框架真正的“像素级推理”能力,UniPixel引入了三大关键模块:
此外,UniPixel扩展了语言模型词表,增加了、
具体技术亮点包括:
为最大化自由交互,UniPixel设计了Prompt Encoder模块,对点、框、掩码三类视觉提示进行统一编码。
无论提示类型,均可编码为同一空间中的高维向量。
此编码融合了空间坐标、时间位置和提示类型等信息,并借助编码投影层与视觉Token对齐。
相比以往模型仅接受文本提示或简化图像区域,UniPixel可处理更复杂输入,例如:在视频第5秒点击目标并对其前后事件提问,这类场景通过点提示加时间标识的组合能被准确解析。
UniPixel的核心设计之一是对象记忆体(Object Memory Bank)模块,这是一个可动态更新的哈希结构,用于在推理过程中存储与管理用户指定目标区域,其运行机制如图所示。
具体而言,当用户使用如等标记指代目标时,模型自动触发“记忆预填充(memory pre-filling)”流程,智能识别并生成对应时空掩码,然后将其作为对象信息写入记忆体。
此机制允许模型在多轮对话中复用这些记忆对象,实现真正的“上下文可控推理”。
后续若用户再次提及目标,只需使用之前定义的编号即可自动激活相应区域,通过“记忆植入(memory injection)”机制将其特征插入prompt,供LLM推理。
这种机制打破了传统“提示-响应”一次性交互局限,赋予模型类似人类的“关注-记忆-归纳”能力。
例如,当用户问“[1]和[2]之间有什么互动?”时,模型可将两者行为轨迹通过掩码抽象,并从原图片或视频中重新感知以生成合理回答。
除了精准识别目标区域,UniPixel还将掩码生成嵌入语言模型推理流程,实现了“语言引导分割,分割反哺理解”的双向闭环。
具体而言,模型在推理中生成
这些掩码通过对原图片或视频池化,转化为LLM可识别的对象特征,用于回答更复杂语义问题。
此机制极大提升了模型在视频理解任务中的表现。以实际任务为例:“[1]和[2]的行为有何差异?”通过对[1]、[2]的行为区域建模与掩码特征对比,UniPixel能准确回答并指出每帧中的对应区域。
在训练流程上,UniPixel采用模块化、分阶段的训练策略。
模型首先对视觉编码器和语言模型进行预训练,再逐步引入Prompt Encoder、Object Memory Bank和Mask Decoder等组件进行联合训练,确保各模块协同工作且不过拟合到特定任务。
此外,作者构建并整合了多个数据集,涵盖文本、图像和视频三种数据,以及点、框、掩码等多种视觉提示类型。
整个训练数据规模达约100万条样本(具体见下表),支持从静态对象指代到时序掩码生成等多种任务类型。这些数据提供了统一、多样的训练环境,提升了模型在不同任务设置下的适应能力。
△
为验证UniPixel框架有效性,作者在10个公开基准测试集上进行了广泛实验,涵盖9大视觉-语言理解任务,具体任务和数据集设置如图所示。
△
得益于统一框架设计和渐进式训练范式,UniPixel在分割任务上展现出显著性能优势。
在较为困难的ReVOS推理分割基准上,UniPixel-3B达到62.1 J&F,超过现有所有模型,表明其在理解复杂文本提示与像素级掩码生成间具有更强的关联建模能力。完整的ReVOS数据集测试结果如下表所示:
在MeViS、Ref-YouTube-VOS和RefCOCO/+/g等其他数据集上,UniPixel也展现出最佳性能。其中MeViS、Ref-YouTube-VOS、Ref-DAVIS17和GroundMore数据集的测试结果如表所示:
而RefCOCO/+/g(cIoU)和ReasonSeg数据集的测试结果如下表所示:
在VideoRefer-Bench基准上,UniPixel同样在掩码提示的视频区域理解上取得领先表现,显示其对视觉提示的适应性与鲁棒性。
该任务要求模型根据复杂语言描述,理解用户指定的掩码区域,并在视频中正确解析其动态变化与语义关系。
UniPixel借助对象记忆机制和多模态协同编码能力,能准确捕捉目标区域的边界与行为变化。
其中,VideoRefer-Bench-D数据集的测试结果为:
VideoRefer-Bench-Q数据集的测试结果为:
为进一步验证模型的指代-分割统一建模能力,作者还提出了全新的PixelQA任务,要求模型理解视频中的点或框指代的对象,并且:
分割该目标在所有帧中的掩码;
回答问题。
在此任务上,UniPixel展现出出色的多任务建模能力,如表所示,其性能超越72B的传统模型。
△
以下例子展现了UniPixel在实际场景中的分割和推理结果。
得益于端到端掩码生成能力以及语言与视觉模块的深度协同,该模型能在理解复杂问题的基础上,精准定位问题指向的目标区域,并用于辅助推理。
△
△
△
△
UniPixel的提出,是多模态AI从“模态对齐”迈向“细粒度理解”的重要里程碑。它不仅打通了对象指代与分割间的技术壁垒,更将区域感知与语言推理有效融合,在像素层面实现了真正的理解与互动。
通过这种全新范式,多模态大模型在未来发展中,可能不再只是“全局通感”的超级大脑,而是能精准聚焦、灵活应对、自然交互的智能体。
而UniPixel,或许正是这种新型AI形态的原点。
项目主页:https://polyu-chenlab.github.io/unipixel/
论文链接:https://arxiv.org/abs/2509.18094
代码链接:https://github.com/PolyU-ChenLab/UniPixel
开源数据:https://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
在线Demo:https://huggingface.co/spaces/PolyU-ChenLab/UniPixel
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116288.html