当前位置：首页 > 科技资讯 > 正文

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向

主机测评网
科技资讯
2026-01-14
850

近期，DeepSeek-OCR提出“视觉作为上下文压缩”创新理念，但其核心聚焦于利用OCR能力通过图像压缩文档。

那么，自然图像是否同样能实现文本压缩？中国科学院与字节跳动联合推出的「Grasp Any Region」为此开辟全新思路。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第1张

团队强调，其最新工作Grasp Any Region (GAR)实现的精准区域描述能力，为构建自然图像的密集描述提供了潜在可行路径之一。

具体而言，GAR具备三大核心能力：

1、精准描述用户指定区域。

2、建模多个区域间复杂关系。

3、执行高级组合推理，例如图示的非实体判别。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第2张

△

下面我们深入解析。

局部细节与全局信息的平衡挑战

首先，何为区域多模态大语言模型？

与传统MLLMs不同，区域MLLMs致力于对图像或视频内容进行细粒度、交互式理解。

具体而言，用户可提供多样化视觉提示（区域）及指令，模型需基于此对特定区域实现精准理解。

例如，“描述该区域”，或“区域1与区域2有何关系”，甚至判断“区域1和区域2是否位于镜中”。

其次，为何研究区域MLLMs？

DeepSeek-OCR本质依赖多模态大模型对图像进行精准描述能力，初步探索了基于自然图像全图描述的信息压缩途径。

然而，全图描述往往难以评估。

区域描述则不同，针对用户指定区域，可从色彩、纹理、形状、材质等基础维度客观评估模型描述，正如英伟达Describe-Anything的DLC-Bench所示。

若模型具备精准区域描述能力，则可结合SAM，将精确区域描述合并为详细准确的全图描述，进一步实现信息压缩。

更重要的是，此类详细描述不仅助力MLLM预训练，还能辅助生成模型理解复杂用户指令。

此外，区域描述本身可作为AIGC中编辑模型与场景生成模型的关键数据源。

多年来，区域MLLMs一直面临局部细节与全局信息间的两难困境。

浙江大学研究员提出的Osprey通过掩码池化获取局部特征，导致细节丢失；

而英伟达提出的DAM额外输入裁剪子图，致使全局信息缺失。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第3张

△图 2：GAR-1B与DAM-3B针对同一区域描述的对比

例如，上例展示DAM全局信息丢失现象。用户指定区域实为青蛙样式拖鞋，但DAM误识别为青蛙。

实例验证性能

相比之下，GAR能对用户指定区域实现精确理解，产出更准确描述。

例如，GAR能正确识别并描述物体，而DAM均出现错误识别。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第4张

并且GAR能针对极小物体实现精准识别。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第5张

还能针对极小物体进行精准识别。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第6张

进而，它能利用极小图像细节正确建模物体间关系。

特别下图右侧例子，OpenAI-o3和Gemini-2.5-Pro均误判人在看书。

然而，实际人眼正看镜头，她仅手持书而非阅读。这凸显GAR模型细节理解能力之强。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第7张

GAR还能进行复杂组合推理，例如综合判断多个提示是否在镜中。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第8张

此外，GAR能良好迁移至视频描述，对视频外观描述十分准确。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第9张

同时，在视频理解任务中，GAR能精准识别视频中物体、人物与动作，进行语义层次深度分析。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第10张

还能对视频中单个区域进行精准理解，甚至识别运动信息（如下面右图例子）。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第11张

如此强劲表现，如何实现？

细粒度与全局上下文融合

具体而言，团队设计GAR模型时，遵循“既要实现提示区域细粒度理解，又要保留利用整个场景全局上下文”核心原则。

如下图所示，团队在传统MLLM架构中引入两个全新组件：

1、简洁高效提示编码方案；

2、创新性区域对齐特征回放技术。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第12张

△

GAR通过视觉编码器对整个场景生成全局特征图，从而完整保留全局上下文信息。

同时，RoI-Aligned特征回放机制能为特定目标对象提取高保真特征。

最终，全局上下文特征与精细化局部特征共同输入LLM，以精准推理多对象间复杂关联与交互关系。

具体如下。

为将空间引导信息融入视觉骨干网络，团队引入轻量级提示编码机制。

首先，用户指定二值掩码经简单从零初始化卷积块处理生成掩码嵌入；

随后，将其与ViT的patch嵌入相加，完成空间信息与视觉特征融合。

为同时提供充足局部细节与必要全局上下文，团队提出区域对齐特征回放技术。

具体而言，模型通过切图方式处理完整未裁剪图像（含掩码提示），生成全局特征图，此类特征富含上下文信息。

接着，根据输入掩码为感兴趣区域生成对应边界框，并采用RoI-Align技术，直接从全局特征图提取该区域相关特征，如图3右侧所示。

由于这些特征本质源自“基于整幅图像计算的特征图”，因此天生具备上下文感知能力。

同时，回放特征能为后续语言模型提供用户指定区域“高细节、高分辨率”特征表示，助力实现细粒度理解。

这种“富含上下文特征重放”机制，让GAR既能“聚焦细节”，又不“忽视全局”。

实验证明，该设计可同时实现两大目标：

1、提供充足局部细节。

2、保留全局上下文。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第13张

△

为提升模型“单区域基础目标识别”能力，进而支持“多区域复杂关联推理”，团队设计多阶段流程生成大规模高质量数据集，具体如图4所示。

具体而言，首先以种子数据集训练种子描述生成模型，基于此模型在ImageNet-21K细粒度图像分类数据集上推理，根据类别名称过滤，构建45.6万条细粒度描述数据；

随后结合上述两类数据集训练细粒度描述生成模型，并借助Panoptic Scene Graph数据集标注信息，生成足量关联感知型描述及问答对。

最终，团队使用这三部分数据对GAR模型进行训练。

阶段1：提升识别能力。

初始阶段，团队以Describe Anything-1.5M数据集为基础。

但团队发现，该数据集训练出的模型在细粒度识别能力上不足：模型常出现错误物体识别，限制其在更复杂场景下生成描述质量。

为此，团队巧妙引入ImageNet-21K数据，因其是极具代表性细粒度分类数据集，以类别标签详尽性与覆盖广度著称。

团队先通过Seed-Captioner生成初始区域描述，再利用LLM将生成描述与真实类别标签验证，最终得到含456K样本精细化细粒度数据集。

随后，团队结合上述两类数据集，训练细粒度描述生成模型。

阶段2：支持多区域关联推理。

为进一步实现多区域关联理解与推理，团队引入Panoptic Scene Graph数据集。

具体步骤如下：

首先，调用Fine-Grained-Captioner为每个区域生成详细描述；

接着，将Qwen2.5-72B作为“LLM融合器”，结合PSG数据集原始标注信息，生成三类数据：

1、144K条明确融入关联上下文的丰富目标描述；

2、144K组用于考察复杂关联理解能力的问答对；

3、126K道选择题。本阶段最终构建含414K样本关联数据集。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第14张

△

最后，本文引入GAR-Bench。

这是一套综合性基准测试套件，旨在系统性评估多模态大语言模型区域级理解能力，包括单区域与多区域理解。

该测试集构建遵循三大核心设计思路：

1、任务设置略微侧重推理能力而非感知能力；

2、通过多视觉提示设计提升问题难度，例如部分问题提示词数量达7个与9个；

3、控制单个提示词对应区域面积，使其占比极小，平均仅4.4%。

该测试集具体分为两大核心组件：多提示词描述任务与多维度视觉问答任务。

其中，GAR-Bench-Cap用于评估模型叙事整合能力——即能否以连贯表述，描述多个视觉提示间复杂关联与交互关系。

GAR-Bench-VQA则进一步将模型理解能力拆解为两个关键维度：

1、针对给定提示词的基础属性感知能力；

2、以区域为核心的高阶组合推理能力，要求模型整合提示词及周边上下文信息进行推理。

例如，识别物体在全局中排列位置（第几行第几列），以及判断物体是否为实体。

媲美顶级推理模型

再来看看数据表现。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第15张

△

团队首先衡量GAR高阶理解能力，其要求精准建模多个提示词间复杂关联。

为评估该能力，团队在GAR-Bench-VQA测试集上开展全面对比实验。

如表1所示，GAR-8B模型取得59.9分优异综合成绩，其表现甚至超过性能强劲私有先进非推理模型GPT-4o，直逼最强推理模型o3和Gemini-2.5-Pro！

此外，GAR-1B模型表现凸显团队方法效率与效果优势。

尽管该模型参数量远小于其他对比模型，但其综合得分50.6分，性能超过InternVL3-78B等大规模公开模型。

这一优势在细粒度感知任务中尤为明显：GAR-1B与GAR-8B在“纹理”维度得分分别达69.0分和75.9分，显著超越其他模型。

进一步地，团队专注于衡量GAR生成描述准确性。团队在一系列高难度数据集上对GAR模型进行基准测试，结果持续证明其具备当前最先进性能。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第16张

△

如表2所示，在GAR-Bench-Cap测试集上，GAR-1B与GAR-8B分别取得57.5分和62.2分最高综合成绩，表现甚至超过Gemini-2.5-Pro等性能强劲私有模型。

表3中DLC-Bench测试结果进一步验证这一优势：无论以LLaMA3.1还是GPT-4o作为评判模型，GAR-1B与GAR-8B性能均优于DAM-3B，成为新SOTA。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第17张

△

如表4所示，GAR模型在Ferret-Bench与MDVP-Bench上零样本表现尤为值得关注。

在这两个测试集所有细分类别中，GAR模型均位列第一。其中在MDVP-Bench测试集上，GAR模型领先优势更显著：GAR-8B在自然图像任务中取得178.6分，该成绩大幅超过所有竞品模型。

综上，通过在多个基准测试集上全面评估可明确证明：在生成丰富、准确且细节化局部描述任务中，GAR模型已成为新当前最先进方案。

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向 GAR模型区域描述多模态大语言模型视觉推理第18张

△

甚至，团队惊喜发现，GAR能力可零样本迁移至视频。团队直接将GAR模型扩展至视频任务，并分别在VideoRefer-Bench-D与VideoRefer-Bench-Q测试集上评估，结果如表6、表7所示。

在零样本设置下，GAR-8B模型性能超过DAM-8B。更重要的是，如表7所示，零样本GAR-8B甚至优于领域内训练VideoRefer-7B模型！这表明其强大理解能力可轻松迁移至视频任务。

不过，由于GAR模型实际仅使用图像数据训练，因此在时间相关任务上得分偏低。例如表6中TD与表7中Future Prediction，均体现这一局限。

团队相信，GAR将推动MLLM真正理解稠密视觉世界，也为信息压缩提供新视角与可能。

最后，团队认为，GAR可作为优秀数据引擎工具使用。

例如——

1、训练多模态理解模型时，往往需要精细图像/视频描述作为预训练，试试GAR吧。

2、训练文生图或文生视频模型时，往往需要精细描述以提升模型对复杂文本指令遵循能力，试试GAR吧。

3、训练细粒度编辑模型时，往往缺乏针对待编辑区域精准描述，也试试GAR吧～

此外，GAR可天然作为奖励模型，用于多模态理解任务后训练阶段，提供准确区域理解奖励信号！

而且，团队论文、代码和模型全部开源，并支持基于gradio本地部署。

下面是gradio demo使用方式，用户只需通过点击鼠标，GAR就会根据SAM生成掩码，对指定区域进行十分细节描述，欢迎大家试用～

论文：https://huggingface.co/papers/2510.18876GitHub：https://github.com/Haochen-Wang409/Grasp-Any-Region抱抱脸：https://huggingface.co/collections/HaochenWang/grasp-any-regionhttps://huggingface.co/spaces/jbilcke-hf/SNIPED_grasp-any-region

阿里云服务器性价比vps 性价比服务器

本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260117733.html

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向

局部细节与全局信息的平衡挑战

实例验证性能

细粒度与全局上下文融合

媲美顶级推理模型

Anthropic推出Claude for Excel插件，革新金融服务数据分析

华为WorldGrow模型突破：30分钟生成1800㎡室内场景，AI大house时代来临

Grasp Any Region (GAR): 突破性区域描述与推理模型引领多模态AI新方向

局部细节与全局信息的平衡挑战

实例验证性能

细粒度与全局上下文融合

媲美顶级推理模型

Anthropic推出Claude for Excel插件，革新金融服务数据分析

华为WorldGrow模型突破：30分钟生成1800㎡室内场景，AI大house时代来临

相关文章