当前,多模态大模型在复杂任务中表现出色,但在细粒度视觉识别上仍落后于视觉编码器。北京大学彭宇新教授团队深入该领域,最新研究相关论文已被ICLR 2026接收,并已开源。
真实世界充满了细粒度的对象,如飞机有上百种细分类型。细粒度视觉识别在现实生产和生活中具有重要意义。然而,多模态大模型在细粒度识别上存在挑战,如依赖大量训练数据,而细粒度标注数据难以收集。
为解决这些问题,彭宇新教授团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1。通过思维链监督微调与三元组增强策略,Fine-R1在少量训练数据下表现超越其他模型,展现了生成式多模态大模型在判别式任务上的潜力。
Fine-R1包含两个阶段:思维链监督微调与三元组增强策略优化。前者模拟人类思考过程,后者通过正样本和负样本提升模型对类内差异和类间差异的辨识能力。
阶段I:思维链监督微调。构建结构化思维链,将推理过程分为四步,通过思维链数据对基础模型进行监督微调。
阶段II:三元组增强策略优化。针对细粒度视觉识别问题,优化推理路径,提升模型对类内差异和类间差异的辨识性。
实验结果
表1展示了Fine-R1在多个数据集上的封闭式识别结果,均超越其他模型。
表2展示了Fine-R1的开放式识别结果,同样超越其他模型。
图3展示了正负样本对可视化结果,Fine-R1通过思维链推理提升识别准确率。
论文与开源信息
论文标题:
Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning
论文链接:
https://arxiv.org/pdf/2602.07605
开源代码:
https://github.com/PKU-ICST-MIPL/FineR1_ICLR2026
模型地址:
https://huggingface.co/collections/StevenHH2000/fine-r1
实验室网址:
https://www.wict.pku.edu.cn/mipl
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435972.html