当前位置：首页 > 科技资讯 > 正文

Grasp Any Region：解锁自然图像文本压缩的新可能

主机测评网
科技资讯
2026-05-07
804

近期，DeepSeek-OCR提出了一种名为“Vision as Context Compression”的新思路，旨在通过模型的OCR能力，利用图片压缩文档。然而，我们不禁要问：自然图像能否也作为文本的压缩手段呢？中科院与字节联合提出的「Grasp Any Region」为此提供了新思路。

Grasp Any Region：解锁自然图像文本压缩的新可能 Region 自然图像文本压缩 MLLMs 第1张

团队认为，他们的最新工作Grasp Any Region (GAR)所实现的精准region captioning能力，为构建自然图像的Dense Caption提供了潜在的可能路径之一。

具体而言，GAR具备以下三种核心能力：

1、精准描述用户指定的 region。

2、建模多个 region 之间的关系。

3、进行复杂的组合推理（例如图片所示的非实体判别）。

Grasp Any Region：解锁自然图像文本压缩的新可能 Region 自然图像文本压缩 MLLMs 第2张

局部细节与全局信息的trade-off

首先，什么是Region MLLMs？

与传统MLLMs不同，Region MLLMs旨在对图片/视频内容进行细粒度、可交互式的理解。

具体来说，用户可以提供各种各样的visual prompts (regions)以及user instructions，模型需要基于此对特定region进行准确理解。

例如，“请描述这个区域”，或“区域1和区域2之间是什么关系”，甚至判断“区域1和区域2是否在镜子当中”。

其次，为什么要研究Region MLLMs？

DeepSeek-OCR的本质是依赖多模态大模型对图片进行精准caption的能力，也初步探索了基于自然图片的全图caption进行信息压缩的道路。

然而，全图的caption往往难以评测。

Region Caption就不一样了，对于用户指定的Region，很容易就可以从色彩、纹理、形状、材质等基础方面，客观地对模型的caption进行评测。

如果一个模型有了精准的region caption能力，那么就可以结合SAM，将精准的region captions其merge成一个详细且准确的全图caption，进一步实现了信息的压缩。

有图有真相

相比之下，GAR能够对用户指定区域实现精确的理解，产出更准确的描述。

Grasp Any Region：解锁自然图像文本压缩的新可能 Region 自然图像文本压缩 MLLMs 第3张

并且GAR能够针对极小物体，进行精准识别。

Grasp Any Region：解锁自然图像文本压缩的新可能 Region 自然图像文本压缩 MLLMs 第4张

细粒度+全局上下文

具体而言，团队在设计GAR模型时，遵循了「既要实现对提示区域的细粒度理解，同时又要保留并利用整个场景的全局上下文」的核心原则。

Grasp Any Region：解锁自然图像文本压缩的新可能 Region 自然图像文本压缩 MLLMs 第5张

具体而言，团队在传统MLLM架构中引入两个全新组件：

1、简洁高效的prompt encoding方案；

2、创新性的区域对齐（RoI-aligned）特征回放技术。

直逼最强推理模型

Grasp Any Region：解锁自然图像文本压缩的新可能 Region 自然图像文本压缩 MLLMs 第6张

最后，团队将GAR模型扩展至视频任务，并分别在VideoRefer-Bench-D与VideoRefer-Bench-Q测试集上进行评估。结果表明，zero-shot的GAR模型性能优异，甚至超过了某些in-domain训练的模型。

试用与资源

论文：https://huggingface.co/papers/2510.18876

性价比服务器高防服务器云服务器

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543478.html

Grasp Any Region：解锁自然图像文本压缩的新可能

局部细节与全局信息的trade-off

有图有真相

细粒度+全局上下文

直逼最强推理模型

Claude Excel插件：AI金融分析新纪元

华为联手高校打造超大室内场景模型WordGrow

Grasp Any Region：解锁自然图像文本压缩的新可能

局部细节与全局信息的trade-off

有图有真相

细粒度+全局上下文

直逼最强推理模型

Claude Excel插件：AI金融分析新纪元

华为联手高校打造超大室内场景模型WordGrow

相关文章