当前位置:首页 > 科技资讯 > 正文

BGE-Reasoner:革新推理密集型信息检索的端到端解决方案

人工智能的浪潮正引领我们步入一个由RAG和AI Agent定义的全新纪元。然而,要让这些智能体真正具备“智能”,而非仅仅充当信息搬运工,就必须攻克一个横亘在所有前沿团队面前的核心挑战:推理密集型信息检索(Reasoning-Intensive IR)

这一难题不仅是当前RAG和AI Agent技术发展的关键瓶颈,更对大模型智能体及深度研究(DeepResearch)等应用场景的成功具有决定性影响。

正当全球研究者为此奋力突破之际,一项来自中国的创新贡献脱颖而出:BGE-Reasoner

BGE-Reasoner由中国科学技术大学、智源研究院、北京邮电大学与香港理工大学等机构的联合团队开发,是一套针对推理密集型信息检索任务的创新型端到端解决方案。通过系统性的查询理解、向量检索与重排序,该方案能显著提升搜索引擎在复杂推理场景中的表现。

在权威评测基准BRIGHT上,BGE-Reasoner取得了45.2的测试得分,以明显优势刷新了该基准的最高纪录。

作为BGE系列模型的重要里程碑,BGE-Reasoner不仅实现了性能突破,更为解决推理密集型检索这一行业难题提供了高效新范式。从技术角度看,其核心创新主要体现在以下三方面:

  1. 一个可复制的框架:提出了由Rewriter、Embedder和Reranker组成的三阶段模块化框架,为处理复杂查询提供了清晰、可扩展的工程范式。
  2. 数据驱动创新:探索并验证了利用大模型合成高质量、多领域推理训练数据的可行性,有效解决了该领域训练数据稀缺的核心问题。
  3. 强化学习赋能:成功将强化学习应用于Reranker训练,使模型在面对困难样本时具备更强的推理和泛化能力。

相关模型权重、训练代码及训练数据即将向社区开放,以进一步推动该领域的研究与应用发展。

项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner

简介

推理密集型信息检索(Reasoning-Intensive IR)是近年来兴起的一类新型信息检索任务。与传统检索不同,它不仅依赖语义匹配,还需要综合运用深层逻辑推理、多步语义链以及背景知识,才能在查询与目标文档之间建立正确的语义关联。

为促进该领域研究,香港大学、普林斯顿大学和斯坦福大学联合提出了首个面向推理密集型检索的权威评测基准BRIGHT。该基准汇集了来自StackExchangeLeetCode数学竞赛等领域的真实查询,并将其与需要多步推理才能识别的相关文档配对,用于评估检索系统在复杂推理场景下的能力。

在BRIGHT基准下,传统依赖关键词匹配或简单语义相似度的方法往往难以定位真正相关的目标文档,揭示了当前检索系统在复杂推理场景中的局限性。因此,提升推理密集型检索的系统性能,成为推动检索增强生成(RAG)在复杂推理任务中发展的关键。

BGE-Reasoner:革新推理密集型信息检索的端到端解决方案 推理密集型信息检索 BGE-Reasoner BRIGHT基准 强化学习 第1张

图1. 不同于基于关键词和直接语义匹配的检索任务,BRIGHT评测基准专注于推理密集型场景下的检索任务

在此背景下,BGE-Reasoner在推理密集型检索任务中展现出卓越性能。在BRIGHT榜单中,它超越了此前由蚂蚁、百度、字节跳动、人民大学、滑铁卢大学等机构提交的成果,并以领先第二名3.6分的优势刷新纪录。同时,其内置向量模型BGE-Reasoner-Embed也大幅超越了Seed1.5-Embedding、Qwen3-Embedding、GTE等当前最强基线模型,实现了显著性能提升。

BGE-Reasoner:革新推理密集型信息检索的端到端解决方案 推理密集型信息检索 BGE-Reasoner BRIGHT基准 强化学习 第2张

图2. 在BRIGHT榜单上,BGE-Reasoner于8月21日荣登第一名,取得SOTA表现;BGE-Reasoner-Embed使用原生查询即表现出色,在向量模型中取得SOTA结果,榜单链接:https://brightbenchmark.github.io

BGE-Reasoner:革新推理密集型信息检索的端到端解决方案 推理密集型信息检索 BGE-Reasoner BRIGHT基准 强化学习 第3张

图3. BGE-Reasoner及BGE-Reasoner-Embed与基线模型在BRIGHT上的检索表现对比图

技术分析

BGE-Reasoner采用信息检索中的经典三模块体系:

  • 查询理解——BGE-Reasoner-Rewriter:对初始查询进行理解与改写,生成更适合检索的优化查询;
  • 向量模型——BGE-Reasoner-Embed:与BM25协同利用改写后的查询进行检索,获取候选文档集合;
  • 排序模型——BGE-Reasoner-Reranker:对候选文档进行重排序,得到更准确的排序结果。

在实际工作流程中,用户的原始查询首先经过BGE-Reasoner-Rewriter改写,然后由BGE-Reasoner-EmbedBM25并行检索得到候选文档,最后交由BGE-Reasoner-Reranker进行精排。系统通过集成多路结果,输出最终排序,完成端到端的推理式检索流程。完整框架如下图所示:

BGE-Reasoner:革新推理密集型信息检索的端到端解决方案 推理密集型信息检索 BGE-Reasoner BRIGHT基准 强化学习 第4张

图4. BGE-Reasoner的端到端检索流程示意图

数据合成。与传统的开放式问答场景不同,推理密集型信息检索场景下的训练数据极为稀缺。为解决这一问题,智源及合作机构的研究团队采用了基于大语言模型的数据合成策略。具体而言,基于现实场景中的知识密集型语料库,合成出针对特定领域的高质量推理密集型查询,并借助大语言模型强大的理解能力为每个查询构造高质量的正例和负例。最终构建出一份覆盖数学、代码等多个领域的高质量推理密集型检索训练数据,为后续模块训练提供支持。

查询理解。在查询理解模块中,研究人员基于前述合成数据,利用推理能力较强的教师模型生成多条推理路径,并通过拒绝采样策略筛选高质量结果以构建训练样本。随后,使用这些训练数据对Qwen2.5-7B-Instruct模型进行微调,显著提升其在查询理解与改写方面的能力,最终得到BGE-Reasoner-Rewriter。

向量模型。内嵌的向量模型BGE-Reasoner-Embed基于Qwen3-8B基座模型进行微调。依托高质量的合成训练数据,模型在推理密集型检索任务中的能力得到显著增强。在BRIGHT基准下,无论是基于原始查询还是GPT-4推理查询,BGE-Reasoner-Embed均取得了当前向量模型中的最佳检索表现,充分验证了合成数据的有效性。

排序模型。内嵌的排序模型BGE-Reasoner-Reranker基于Qwen3系列基座模型进行微调。结合任务场景下的相关性定义,模型能够在查询与候选文档之间展开细粒度推理,识别关键信息片段并准确评估相关性。在训练过程中,引入强化学习以提升模型在困难样本上的推理能力;在推理阶段,模型通过测试时扩展(test-time augmentation)获取更稳健的相关性评分,从而进一步增强排序性能。

BGE-Reasoner:革新推理密集型信息检索的端到端解决方案 推理密集型信息检索 BGE-Reasoner BRIGHT基准 强化学习 第5张

图5. BGE-Reasoner-Reranker的推理过程示意图

总结

BGE-Reasoner的卓越表现充分验证了强化学习与合成数据在推理密集型信息检索中的关键作用,为未来Agent Search的发展提供了坚实支撑。

智源研究院将持续深耕向量模型与检索增强技术,不断提升BGE系列模型的能力与通用性。未来期待与更多科研机构及产业伙伴合作,共同推动检索与人工智能的进步,欢迎研究者与开发者关注并使用BGE系列模型,共建开放繁荣的开源生态。