苹果最新动向:多模态搜索技术再升级!
近期,苹果在多模态 web 搜索领域取得重大突破,发现赋能多模态大语言模型(MLLM)的新策略。
在现实应用场景下,MLLM 需要访问外部知识源,并实时响应动态变化的信息,从而解决复杂的用户查询。然而,现有的方法如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,存在流程僵化、搜索调用过多及查询构造不当等问题,导致效率低下且结果不理想。
为克服这些局限,苹果推出了 DeepMMSearch-R1 模型。该模型能按需执行多轮网络搜索,并动态生成文本与图像搜索查询,如图 1(右)所示。具体来说,DeepMMSearch-R1 通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容改进原始问题。
为提升图像搜索效果,苹果引入中间图像裁剪工具(Grounding DINO),以应对背景噪声和干扰性视觉实体的挑战。DeepMMSearch-R1 首先生成与问题最相关的视觉实体指代表达,然后利用该表达由裁剪工具动态识别并裁剪出图像中的对应区域。生成的裁剪图像随后用于图像搜索,以检索与上下文更相关的结果。这种有针对性的搜索方式显著提升了检索质量,并大幅提高了整体性能。
苹果采用两阶段训练流程:首先进行有监督微调(SFT),然后通过 GRPO 算法进行在线强化学习(RL)。目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索到的内容进行推理,决定下一步行动:是直接给出答案,还是进一步优化查询并发起新一轮搜索。
本文贡献主要包括:
一是提出新的数据集 DeepMMSearchVQA。该数据集包含多样化多跳视觉问答样本,以多轮对话形式呈现,涵盖既需要搜索又无需搜索的问题类型。
二是构建真实世界的多模态搜索流程,整合三种工具:(1)文本搜索工具,使模型能发出有针对性的查询,检索相关网页并获取最新事实性知识;(2)基于 Grounding DINO 的图像定位工具,根据模型生成的与问题视觉实体相关的指代表达,识别并裁剪输入图像中的相关区域;(3)图像搜索工具,基于输入图像(无论是裁剪图还是完整图)检索网页内容,包括标题与描述,帮助模型通过网络信息识别不熟悉的视觉实体。
三是通过两阶段训练过程实现 SOTA 性能,超越以往的开源基线模型(见图 1)。该训练过程包括使用 SFT 进行冷启动初始化,随后采用 GRPO 算法进行在线强化学习。
论文标题:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
arXiv 地址:https://arxiv.org/pdf/2510.12801
针对苹果最新研究,有人认为「这可能是苹果迈向 AI 原生 LLM 和多模态搜索引擎的第一步」。
苹果在构建数据集时遵循两个核心原则:(1)数据集应具备多样性,覆盖完整的知识分类体系;(2)问题应同时包含无需搜索与需要搜索的类型,以多轮对话形式呈现,促进模型的推理、自我反思与自我纠正。图 2(上)展示了自动化流程概览。
苹果从 InfoSeek 训练集随机选取 20 万个样本,生成带有工具标签、推理步骤及网页检索信息的多轮对话数据。为确保质量,仅保留 Gemini-2.5-Pro 预测结果与 InfoSeek 提供的真实答案一致的对话,得到约 4.7 万条精炼对话样本。
随后使用 Gemini-2.5-Pro 据知识分类体系对问题进行分类,并从这些类别中采样 1 万个视觉问答(VQA)样本,实现大致平衡的知识类型分布。同时确保数据集中搜索类与非搜索类问题的数量大致相等。
图 2(下)展示了知识分类体系、需要图像搜索、文本搜索或两者兼用的问题比例及不同轮次对话样本的分布情况。最终得到的 1 万个 VQA 样本构成有监督微调阶段的训练语料。
有监督微调阶段
苹果采用 Qwen2.5-VL-7B-Instruct 作为基础模型,仅对其语言模型(LLM)模块进行有监督微调,同时保持视觉编码器和视觉投影层冻结不变。此方法能保留强大的预训练图像表征能力,确保模型适应过程专注于提升网页检索信息的推理能力及遵循结构化工具使用流程的能力。
训练目标方面,采用标准的因果语言建模(Causal LM)目标函数。给定多模态输入 (x, I),包括文本问题、对应图像及包含完整推理过程、工具调用和最终答案的多轮对话 y*,模型在给定所有前文 token 的条件下预测目标序列中的每一个 token。
强化学习阶段
RL 阶段基于组相对策略优化(Group-Relative Policy Optimization,GRPO),该方法在 DeepSeekMath 中首次提出。GRPO 在近端策略优化(Proximal Policy Optimization,PPO)基础上扩展,通过对同一提示词下生成的候选回复进行比较,提升训练稳定性。
不同于独立评估每个 rollout 的方式,GRPO 计算的是相对于同一组采样 rollout 的平均奖励优势值。
该阶段训练目标通过带截断的重要性加权代理进行优化,虽与 PPO 类似,但引入了组相对优势的概念。其数学形式可表示为:
Rollouts:由 SFT 后的模型检查点生成。SFT 模型使用已学习的工具调用标签体系与图像定位工具、图像搜索工具和文本搜索工具交互,并将这些工具返回的反馈融入后续对话轮次中。此过程持续进行至模型生成最终回答或达到最大轮次数。
因此,每个 rollout 代表一条完整的推理轨迹并附带在 SFT 阶段学习到的标签体系。在训练过程中对每条轨迹的工具调用次数和最大 token 长度进行约束,要求模型在准确性与效率间取得平衡。
奖励机制:GRPO 优化过程采用结合事实准确性与结构合规性的复合奖励函数。使用 gpt-5-chat-latest 作为奖励模型判断预测结果在语义上是否与真实答案一致。正确性得分记为 s(s ∈ {0, 1}),表示最终答案是否判定为正确;格式得分 s_fmt 用于衡量输出是否遵循规定的结构化输出格式。最终奖励计算公式为:
苹果表示配备网络搜索功能的多模态大语言模型性能显著优于 RAG 工作流和基于提示的 search agent 基线模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相较于 RAG 工作流和基于提示的 search agent 分别取得 + 21.13% 和 + 8.89% 的性能提升,整体表现与 OpenAI o3 相当。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542844.html