当前位置：首页 > 科技资讯 > 正文

UniPixel：像素级多模态大模型，引领视觉推理新纪元

多模态大模型开创性实现像素级推理，三大任务全面覆盖！

AI“看图说话”已经变得如此简单，但即使是GPT-5、Gemini 2.5 Pro，也只能“窥见一斑”，难以进行更精确的目标识别和推理。

对此，来自香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel。

UniPixel：像素级多模态大模型，引领视觉推理新纪元 UniPixel 像素级推理多模态大模型视觉推理第1张

无需赘言，先来感受UniPixel的卓越表现：

仅需UniPixel一个模型，即可完成目标指代（Referring）、《strong>像素级分割（Segmentation）与区域推理（Reasoning）三大任务，兼具灵活性、精确性与可扩展性。

目前该论文已被NeurIPS 2025接收，而且代码、数据、Demo全面开源！

UniPixel：像素级多模态大模型，引领视觉推理新纪元 UniPixel 像素级推理多模态大模型视觉推理第2张

以下是更多详细信息。

UniPixel重塑视觉推理

传统的视觉问答或描述系统，大多基于整体的图像或视频信息进行推理，缺乏对图中“具体区域”或“指定目标”的精确感知。

这不仅限制了其在医疗诊断、自动驾驶、人机交互等场景中的实际应用，也难以满足用户对“可控性”与“可解释性”的高阶需求。

以日常任务为例：“请指出图中坐在左侧的人并描述他在做什么。”对人类而言，我们会迅速聚焦左侧目标，通过视角、行为和上下文进行判断与描述，但对于传统LMM，这样的问题往往因缺乏区域指引与显著性建模而难以准确回答。

UniPixel通过引入“对象记忆机制（Object Memory Bank）”与支持三类视觉提示（点、框、掩码）的统一视觉编码方式，实现了对用户提示的“感知—记忆—推理”全过程支持。

区别于现有的简单分割和区域级理解模型，UniPixel不仅能识别用户所指的目标，还能将该目标作为上下文显式纳入后续对话中，并输出与之强关联的分割结果、语言回答或描述内容。

UniPixel：像素级多模态大模型，引领视觉推理新纪元 UniPixel 像素级推理多模态大模型视觉推理第3张

△

为实现这一目标，UniPixel在架构设计上进行了系统性创新。

如下图所示，其整体框架基于Qwen2.5-VL模型，支持图像与视频输入，并具备对文本、点、框、掩码等多种提示的感知与处理能力。

用户可输入一个图像或视频、一条文本提示，以及若干个可选的视觉提示，模型则输出自然语言回答与可选的时空掩码（spatial-temporal mask），实现基于视觉细节信息的交互。

UniPixel：像素级多模态大模型，引领视觉推理新纪元 UniPixel 像素级推理多模态大模型视觉推理第4张

△

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542781.html