近期,DeepSeek-OCR提出“视觉作为上下文压缩”创新理念,但其核心聚焦于利用OCR能力通过图像压缩文档。
那么,自然图像是否同样能实现文本压缩?中国科学院与字节跳动联合推出的「Grasp Any Region」为此开辟全新思路。
团队强调,其最新工作Grasp Any Region (GAR)实现的精准区域描述能力,为构建自然图像的密集描述提供了潜在可行路径之一。
具体而言,GAR具备三大核心能力:
1、精准描述用户指定区域。
2、建模多个区域间复杂关系。
3、执行高级组合推理,例如图示的非实体判别。
△
下面我们深入解析。
首先,何为区域多模态大语言模型?
与传统MLLMs不同,区域MLLMs致力于对图像或视频内容进行细粒度、交互式理解。
具体而言,用户可提供多样化视觉提示(区域)及指令,模型需基于此对特定区域实现精准理解。
例如,“描述该区域”,或“区域1与区域2有何关系”,甚至判断“区域1和区域2是否位于镜中”。
其次,为何研究区域MLLMs?
DeepSeek-OCR本质依赖多模态大模型对图像进行精准描述能力,初步探索了基于自然图像全图描述的信息压缩途径。
然而,全图描述往往难以评估。
区域描述则不同,针对用户指定区域,可从色彩、纹理、形状、材质等基础维度客观评估模型描述,正如英伟达Describe-Anything的DLC-Bench所示。
若模型具备精准区域描述能力,则可结合SAM,将精确区域描述合并为详细准确的全图描述,进一步实现信息压缩。
更重要的是,此类详细描述不仅助力MLLM预训练,还能辅助生成模型理解复杂用户指令。
此外,区域描述本身可作为AIGC中编辑模型与场景生成模型的关键数据源。
多年来,区域MLLMs一直面临局部细节与全局信息间的两难困境。
浙江大学研究员提出的Osprey通过掩码池化获取局部特征,导致细节丢失;
而英伟达提出的DAM额外输入裁剪子图,致使全局信息缺失。
△图 2:GAR-1B与DAM-3B针对同一区域描述的对比
例如,上例展示DAM全局信息丢失现象。用户指定区域实为青蛙样式拖鞋,但DAM误识别为青蛙。
相比之下,GAR能对用户指定区域实现精确理解,产出更准确描述。
例如,GAR能正确识别并描述物体,而DAM均出现错误识别。
并且GAR能针对极小物体实现精准识别。
还能针对极小物体进行精准识别。
进而,它能利用极小图像细节正确建模物体间关系。
特别下图右侧例子,OpenAI-o3和Gemini-2.5-Pro均误判人在看书。
然而,实际人眼正看镜头,她仅手持书而非阅读。这凸显GAR模型细节理解能力之强。
GAR还能进行复杂组合推理,例如综合判断多个提示是否在镜中。
此外,GAR能良好迁移至视频描述,对视频外观描述十分准确。
同时,在视频理解任务中,GAR能精准识别视频中物体、人物与动作,进行语义层次深度分析。
还能对视频中单个区域进行精准理解,甚至识别运动信息(如下面右图例子)。
如此强劲表现,如何实现?
具体而言,团队设计GAR模型时,遵循“既要实现提示区域细粒度理解,又要保留利用整个场景全局上下文”核心原则。
如下图所示,团队在传统MLLM架构中引入两个全新组件:
1、简洁高效提示编码方案;
2、创新性区域对齐特征回放技术。
△
GAR通过视觉编码器对整个场景生成全局特征图,从而完整保留全局上下文信息。
同时,RoI-Aligned特征回放机制能为特定目标对象提取高保真特征。
最终,全局上下文特征与精细化局部特征共同输入LLM,以精准推理多对象间复杂关联与交互关系。
具体如下。
为将空间引导信息融入视觉骨干网络,团队引入轻量级提示编码机制。
首先,用户指定二值掩码经简单从零初始化卷积块处理生成掩码嵌入;
随后,将其与ViT的patch嵌入相加,完成空间信息与视觉特征融合。
为同时提供充足局部细节与必要全局上下文,团队提出区域对齐特征回放技术。
具体而言,模型通过切图方式处理完整未裁剪图像(含掩码提示),生成全局特征图,此类特征富含上下文信息。
接着,根据输入掩码为感兴趣区域生成对应边界框,并采用RoI-Align技术,直接从全局特征图提取该区域相关特征,如图3右侧所示。
由于这些特征本质源自“基于整幅图像计算的特征图”,因此天生具备上下文感知能力。
同时,回放特征能为后续语言模型提供用户指定区域“高细节、高分辨率”特征表示,助力实现细粒度理解。
这种“富含上下文特征重放”机制,让GAR既能“聚焦细节”,又不“忽视全局”。
实验证明,该设计可同时实现两大目标:
1、提供充足局部细节。
2、保留全局上下文。
△
为提升模型“单区域基础目标识别”能力,进而支持“多区域复杂关联推理”,团队设计多阶段流程生成大规模高质量数据集,具体如图4所示。
具体而言,首先以种子数据集训练种子描述生成模型,基于此模型在ImageNet-21K细粒度图像分类数据集上推理,根据类别名称过滤,构建45.6万条细粒度描述数据;
随后结合上述两类数据集训练细粒度描述生成模型,并借助Panoptic Scene Graph数据集标注信息,生成足量关联感知型描述及问答对。
最终,团队使用这三部分数据对GAR模型进行训练。
阶段1:提升识别能力。
初始阶段,团队以Describe Anything-1.5M数据集为基础。
但团队发现,该数据集训练出的模型在细粒度识别能力上不足:模型常出现错误物体识别,限制其在更复杂场景下生成描述质量。
为此,团队巧妙引入ImageNet-21K数据,因其是极具代表性细粒度分类数据集,以类别标签详尽性与覆盖广度著称。
团队先通过Seed-Captioner生成初始区域描述,再利用LLM将生成描述与真实类别标签验证,最终得到含456K样本精细化细粒度数据集。
随后,团队结合上述两类数据集,训练细粒度描述生成模型。
阶段2:支持多区域关联推理。
为进一步实现多区域关联理解与推理,团队引入Panoptic Scene Graph数据集。
具体步骤如下:
首先,调用Fine-Grained-Captioner为每个区域生成详细描述;
接着,将Qwen2.5-72B作为“LLM融合器”,结合PSG数据集原始标注信息,生成三类数据:
1、144K条明确融入关联上下文的丰富目标描述;
2、144K组用于考察复杂关联理解能力的问答对;
3、126K道选择题。本阶段最终构建含414K样本关联数据集。
△
最后,本文引入GAR-Bench。
这是一套综合性基准测试套件,旨在系统性评估多模态大语言模型区域级理解能力,包括单区域与多区域理解。
该测试集构建遵循三大核心设计思路:
1、任务设置略微侧重推理能力而非感知能力;
2、通过多视觉提示设计提升问题难度,例如部分问题提示词数量达7个与9个;
3、控制单个提示词对应区域面积,使其占比极小,平均仅4.4%。
该测试集具体分为两大核心组件:多提示词描述任务与多维度视觉问答任务。
其中,GAR-Bench-Cap用于评估模型叙事整合能力——即能否以连贯表述,描述多个视觉提示间复杂关联与交互关系。
GAR-Bench-VQA则进一步将模型理解能力拆解为两个关键维度:
1、针对给定提示词的基础属性感知能力;
2、以区域为核心的高阶组合推理能力,要求模型整合提示词及周边上下文信息进行推理。
例如,识别物体在全局中排列位置(第几行第几列),以及判断物体是否为实体。
再来看看数据表现。
△
团队首先衡量GAR高阶理解能力,其要求精准建模多个提示词间复杂关联。
为评估该能力,团队在GAR-Bench-VQA测试集上开展全面对比实验。
如表1所示,GAR-8B模型取得59.9分优异综合成绩,其表现甚至超过性能强劲私有先进非推理模型GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro!
此外,GAR-1B模型表现凸显团队方法效率与效果优势。
尽管该模型参数量远小于其他对比模型,但其综合得分50.6分,性能超过InternVL3-78B等大规模公开模型。
这一优势在细粒度感知任务中尤为明显:GAR-1B与GAR-8B在“纹理”维度得分分别达69.0分和75.9分,显著超越其他模型。
进一步地,团队专注于衡量GAR生成描述准确性。团队在一系列高难度数据集上对GAR模型进行基准测试,结果持续证明其具备当前最先进性能。
△
如表2所示,在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分最高综合成绩,表现甚至超过Gemini-2.5-Pro等性能强劲私有模型。
表3中DLC-Bench测试结果进一步验证这一优势:无论以LLaMA3.1还是GPT-4o作为评判模型,GAR-1B与GAR-8B性能均优于DAM-3B,成为新SOTA。
△
如表4所示,GAR模型在Ferret-Bench与MDVP-Bench上零样本表现尤为值得关注。
在这两个测试集所有细分类别中,GAR模型均位列第一。其中在MDVP-Bench测试集上,GAR模型领先优势更显著:GAR-8B在自然图像任务中取得178.6分,该成绩大幅超过所有竞品模型。
综上,通过在多个基准测试集上全面评估可明确证明:在生成丰富、准确且细节化局部描述任务中,GAR模型已成为新当前最先进方案。
△
甚至,团队惊喜发现,GAR能力可零样本迁移至视频。团队直接将GAR模型扩展至视频任务,并分别在VideoRefer-Bench-D与VideoRefer-Bench-Q测试集上评估,结果如表6、表7所示。
在零样本设置下,GAR-8B模型性能超过DAM-8B。更重要的是,如表7所示,零样本GAR-8B甚至优于领域内训练VideoRefer-7B模型!这表明其强大理解能力可轻松迁移至视频任务。
不过,由于GAR模型实际仅使用图像数据训练,因此在时间相关任务上得分偏低。例如表6中TD与表7中Future Prediction,均体现这一局限。
团队相信,GAR将推动MLLM真正理解稠密视觉世界,也为信息压缩提供新视角与可能。
最后,团队认为,GAR可作为优秀数据引擎工具使用。
例如——
1、训练多模态理解模型时,往往需要精细图像/视频描述作为预训练,试试GAR吧。
2、训练文生图或文生视频模型时,往往需要精细描述以提升模型对复杂文本指令遵循能力,试试GAR吧。
3、训练细粒度编辑模型时,往往缺乏针对待编辑区域精准描述,也试试GAR吧~
此外,GAR可天然作为奖励模型,用于多模态理解任务后训练阶段,提供准确区域理解奖励信号!
而且,团队论文、代码和模型全部开源,并支持基于gradio本地部署。
下面是gradio demo使用方式,用户只需通过点击鼠标,GAR就会根据SAM生成掩码,对指定区域进行十分细节描述,欢迎大家试用~
论文:https://huggingface.co/papers/2510.18876GitHub:https://github.com/Haochen-Wang409/Grasp-Any-Region抱抱脸:https://huggingface.co/collections/HaochenWang/grasp-any-regionhttps://huggingface.co/spaces/jbilcke-hf/SNIPED_grasp-any-region
本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117733.html