当前位置:首页 > 科技资讯 > 正文

北大新突破:思维链推理助力多模态大模型细粒度识别

当前,多模态大模型在复杂任务中表现出色,但在细粒度视觉识别上仍落后于视觉编码器。北京大学彭宇新教授团队深入该领域,最新研究相关论文已被ICLR 2026接收,并已开源

真实世界充满了细粒度的对象,如飞机有上百种细分类型。细粒度视觉识别在现实生产和生活中具有重要意义。然而,多模态大模型在细粒度识别上存在挑战,如依赖大量训练数据,而细粒度标注数据难以收集。

北大新突破:思维链推理助力多模态大模型细粒度识别 多模态大模型 细粒度识别 思维链推理 Fine-R1 第1张

为解决这些问题,彭宇新教授团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1。通过思维链监督微调与三元组增强策略,Fine-R1在少量训练数据下表现超越其他模型,展现了生成式多模态大模型在判别式任务上的潜力。

两阶段方案

北大新突破:思维链推理助力多模态大模型细粒度识别 多模态大模型 细粒度识别 思维链推理 Fine-R1 第2张

Fine-R1包含两个阶段:思维链监督微调与三元组增强策略优化。前者模拟人类思考过程,后者通过正样本和负样本提升模型对类内差异和类间差异的辨识能力。

阶段I:思维链监督微调。构建结构化思维链,将推理过程分为四步,通过思维链数据对基础模型进行监督微调。

阶段II:三元组增强策略优化。针对细粒度视觉识别问题,优化推理路径,提升模型对类内差异和类间差异的辨识性。

实验结果

北大新突破:思维链推理助力多模态大模型细粒度识别 多模态大模型 细粒度识别 思维链推理 Fine-R1 第3张

表1展示了Fine-R1在多个数据集上的封闭式识别结果,均超越其他模型。

北大新突破:思维链推理助力多模态大模型细粒度识别 多模态大模型 细粒度识别 思维链推理 Fine-R1 第4张

表2展示了Fine-R1的开放式识别结果,同样超越其他模型。

北大新突破:思维链推理助力多模态大模型细粒度识别 多模态大模型 细粒度识别 思维链推理 Fine-R1 第5张

图3展示了正负样本对可视化结果,Fine-R1通过思维链推理提升识别准确率。

论文与开源信息

论文标题:

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

论文链接:

https://arxiv.org/pdf/2602.07605

开源代码:

https://github.com/PKU-ICST-MIPL/FineR1_ICLR2026

模型地址:

https://huggingface.co/collections/StevenHH2000/fine-r1

实验室网址:

https://www.wict.pku.edu.cn/mipl