多模态大模型开创性实现像素级推理,三大任务全面覆盖!
AI“看图说话”已经变得如此简单,但即使是GPT-5、Gemini 2.5 Pro,也只能“窥见一斑”,难以进行更精确的目标识别和推理。
对此,来自香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel。
无需赘言,先来感受UniPixel的卓越表现:
仅需UniPixel一个模型,即可完成目标指代(Referring)、《strong>像素级分割(Segmentation)与区域推理(Reasoning)三大任务,兼具灵活性、精确性与可扩展性。
目前该论文已被NeurIPS 2025接收,而且代码、数据、Demo全面开源!
以下是更多详细信息。
传统的视觉问答或描述系统,大多基于整体的图像或视频信息进行推理,缺乏对图中“具体区域”或“指定目标”的精确感知。
这不仅限制了其在医疗诊断、自动驾驶、人机交互等场景中的实际应用,也难以满足用户对“可控性”与“可解释性”的高阶需求。
以日常任务为例:“请指出图中坐在左侧的人并描述他在做什么。”对人类而言,我们会迅速聚焦左侧目标,通过视角、行为和上下文进行判断与描述,但对于传统LMM,这样的问题往往因缺乏区域指引与显著性建模而难以准确回答。
UniPixel通过引入“对象记忆机制(Object Memory Bank)”与支持三类视觉提示(点、框、掩码)的统一视觉编码方式,实现了对用户提示的“感知—记忆—推理”全过程支持。
区别于现有的简单分割和区域级理解模型,UniPixel不仅能识别用户所指的目标,还能将该目标作为上下文显式纳入后续对话中,并输出与之强关联的分割结果、语言回答或描述内容。
△
为实现这一目标,UniPixel在架构设计上进行了系统性创新。
如下图所示,其整体框架基于Qwen2.5-VL模型,支持图像与视频输入,并具备对文本、点、框、掩码等多种提示的感知与处理能力。
用户可输入一个图像或视频、一条文本提示,以及若干个可选的视觉提示,模型则输出自然语言回答与可选的时空掩码(spatial-temporal mask),实现基于视觉细节信息的交互。
△
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542781.html