当前位置:首页 > 科技资讯 > 正文

UniPixel:像素级多模态大模型,引领视觉推理新纪元

多模态大模型开创性实现像素级推理,三大任务全面覆盖!

AI“看图说话”已经变得如此简单,但即使是GPT-5、Gemini 2.5 Pro,也只能“窥见一斑”,难以进行更精确的目标识别和推理。

对此,来自香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel

UniPixel:像素级多模态大模型,引领视觉推理新纪元 UniPixel 像素级推理 多模态大模型 视觉推理 第1张

无需赘言,先来感受UniPixel的卓越表现:

仅需UniPixel一个模型,即可完成目标指代(Referring)、《strong>像素级分割(Segmentation)与区域推理(Reasoning)三大任务,兼具灵活性、精确性与可扩展性。

目前该论文已被NeurIPS 2025接收,而且代码、数据、Demo全面开源

UniPixel:像素级多模态大模型,引领视觉推理新纪元 UniPixel 像素级推理 多模态大模型 视觉推理 第2张

以下是更多详细信息。

UniPixel重塑视觉推理

传统的视觉问答或描述系统,大多基于整体的图像或视频信息进行推理,缺乏对图中“具体区域”或“指定目标”的精确感知。

这不仅限制了其在医疗诊断、自动驾驶、人机交互等场景中的实际应用,也难以满足用户对“可控性”与“可解释性”的高阶需求。

以日常任务为例:“请指出图中坐在左侧的人并描述他在做什么。”对人类而言,我们会迅速聚焦左侧目标,通过视角、行为和上下文进行判断与描述,但对于传统LMM,这样的问题往往因缺乏区域指引与显著性建模而难以准确回答。

UniPixel通过引入“对象记忆机制(Object Memory Bank)”与支持三类视觉提示(点、框、掩码)的统一视觉编码方式,实现了对用户提示的“感知—记忆—推理”全过程支持。

区别于现有的简单分割和区域级理解模型,UniPixel不仅能识别用户所指的目标,还能将该目标作为上下文显式纳入后续对话中,并输出与之强关联的分割结果、语言回答或描述内容。

UniPixel:像素级多模态大模型,引领视觉推理新纪元 UniPixel 像素级推理 多模态大模型 视觉推理 第3张

为实现这一目标,UniPixel在架构设计上进行了系统性创新。

如下图所示,其整体框架基于Qwen2.5-VL模型,支持图像与视频输入,并具备对文本、点、框、掩码等多种提示的感知与处理能力。

用户可输入一个图像或视频、一条文本提示,以及若干个可选的视觉提示,模型则输出自然语言回答与可选的时空掩码(spatial-temporal mask),实现基于视觉细节信息的交互。

UniPixel:像素级多模态大模型,引领视觉推理新纪元 UniPixel 像素级推理 多模态大模型 视觉推理 第4张