当前位置:首页 > 科技资讯 > 正文

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体

想象一下,如果 AI 大模型在生成答案时,能自行标记不确定的地方,你会对它们的答案更有信心吗?

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体 幻觉检测 AI模型 长篇文本 实时识别 第1张

最近,OpenAI 发表的一篇论文在 AI 社区引发了轰动。论文深入剖析了幻觉的根源,指出问题出在奖励机制上——标准的训练和评估程序更倾向于奖励猜测而非承认不确定性。可能是意识到了这个问题并找到了解决办法,GPT-5 的幻觉率大幅下降。

随着 AI 大模型在医疗咨询、法律建议等高风险领域的应用加深,幻觉问题愈发棘手。因此,许多研究者都在努力攻克这一难题。除了像 OpenAI 那样寻找幻觉原因,还有人在研究幻觉检测技术。然而,现有的检测技术在实际应用中面临瓶颈,通常只能用于简短的事实性查询,或需要昂贵的外部资源验证。

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体 幻觉检测 AI模型 长篇文本 实时识别 第2张

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体 幻觉检测 AI模型 长篇文本 实时识别 第3张

针对这一挑战,来自苏黎世联邦理工学院(ETH)和 MATS 的一项新研究提出了一种低成本、可扩展的检测方法,能够实时识别长篇内容中的“幻觉 token”,并成功应用于高达 700 亿(70B)参数的大型模型。

论文标题:Real-Time Detection of Hallucinated Entities in Long-Form Generation

论文地址:https://arxiv.org/abs/2509.03531

代码地址:https://github.com/obalcells/hallucination_probes

项目地址:https://www.hallucination-probes.com/

代码和数据集:https://github.com/obalcells/hallucination_probes

该方法的核心是精准识别实体级幻觉,例如捏造的人名、日期或引文,而非判断整个陈述的真伪。这种策略使其能够自然地映射到 token 级别的标签,从而实现实时流式检测。

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体 幻觉检测 AI模型 长篇文本 实时识别 第4张

通过 token 级探针检测幻觉实体。在长文本生成场景(Long Fact、HealthBench)中,线性探针的性能远超基于不确定性的基线方法,而 LoRA 探针则进一步提升了性能。该探针同样在短文本场景(TriviaQA)以及分布外推理领域(MATH)中表现出色。图中展示的是 Llama-3.3-70B 模型的结果。

为实现这一目标,研究人员开发了一种高效的标注流程。他们利用网络搜索来验证模型生成内容中的实体,并为每一个 token 标注是否有事实依据。基于这个专门构建的数据集,研究人员通过线性探针(linear probes)等简洁高效的技术,成功训练出精准的幻觉分类器。

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体 幻觉检测 AI模型 长篇文本 实时识别 第5张

AI模型幻觉检测新突破:实时识别长篇文本中的幻觉实体 幻觉检测 AI模型 长篇文本 实时识别 第6张