当前位置:首页 > 科技资讯 > 正文

Grasp Any Region:解锁自然图像文本压缩的新可能

近期,DeepSeek-OCR提出了一种名为“Vision as Context Compression”的新思路,旨在通过模型的OCR能力,利用图片压缩文档。然而,我们不禁要问:自然图像能否也作为文本的压缩手段呢?中科院与字节联合提出的「Grasp Any Region」为此提供了新思路。

Grasp Any Region:解锁自然图像文本压缩的新可能 Region  自然图像 文本压缩 MLLMs 第1张

团队认为,他们的最新工作Grasp Any Region (GAR)所实现的精准region captioning能力,为构建自然图像的Dense Caption提供了潜在的可能路径之一。

具体而言,GAR具备以下三种核心能力:

1、精准描述用户指定的 region。

2、建模多个 region 之间的关系。

3、进行复杂的组合推理(例如图片所示的非实体判别)。

Grasp Any Region:解锁自然图像文本压缩的新可能 Region  自然图像 文本压缩 MLLMs 第2张

局部细节与全局信息的trade-off

首先,什么是Region MLLMs?

与传统MLLMs不同,Region MLLMs旨在对图片/视频内容进行细粒度、可交互式的理解。

具体来说,用户可以提供各种各样的visual prompts (regions)以及user instructions,模型需要基于此对特定region进行准确理解。

例如,“请描述这个区域”,或“区域1和区域2之间是什么关系”,甚至判断“区域1和区域2是否在镜子当中”。

其次,为什么要研究Region MLLMs?

DeepSeek-OCR的本质是依赖多模态大模型对图片进行精准caption的能力,也初步探索了基于自然图片的全图caption进行信息压缩的道路。

然而,全图的caption往往难以评测。

Region Caption就不一样了,对于用户指定的Region,很容易就可以从色彩、纹理、形状、材质等基础方面,客观地对模型的caption进行评测。

如果一个模型有了精准的region caption能力,那么就可以结合SAM,将精准的region captions其merge成一个详细且准确的全图caption,进一步实现了信息的压缩。

有图有真相

相比之下,GAR能够对用户指定区域实现精确的理解,产出更准确的描述。

Grasp Any Region:解锁自然图像文本压缩的新可能 Region  自然图像 文本压缩 MLLMs 第3张

并且GAR能够针对极小物体,进行精准识别。

Grasp Any Region:解锁自然图像文本压缩的新可能 Region  自然图像 文本压缩 MLLMs 第4张

细粒度+全局上下文

具体而言,团队在设计GAR模型时,遵循了「既要实现对提示区域的细粒度理解,同时又要保留并利用整个场景的全局上下文」的核心原则。

Grasp Any Region:解锁自然图像文本压缩的新可能 Region  自然图像 文本压缩 MLLMs 第5张

具体而言,团队在传统MLLM架构中引入两个全新组件:

1、简洁高效的prompt encoding方案;

2、创新性的区域对齐(RoI-aligned)特征回放技术。

直逼最强推理模型

Grasp Any Region:解锁自然图像文本压缩的新可能 Region  自然图像 文本压缩 MLLMs 第6张

最后,团队将GAR模型扩展至视频任务,并分别在VideoRefer-Bench-D与VideoRefer-Bench-Q测试集上进行评估。结果表明,zero-shot的GAR模型性能优异,甚至超过了某些in-domain训练的模型。

试用与资源

论文:https://huggingface.co/papers/2510.18876