AI模型幻觉检测新突破：实时识别长篇文本中的幻觉实体

想象一下，如果 AI 大模型在生成答案时，能自行标记不确定的地方，你会对它们的答案更有信心吗？

AI模型幻觉检测新突破：实时识别长篇文本中的幻觉实体幻觉检测 AI模型长篇文本实时识别第1张

最近，OpenAI 发表的一篇论文在 AI 社区引发了轰动。论文深入剖析了幻觉的根源，指出问题出在奖励机制上——标准的训练和评估程序更倾向于奖励猜测而非承认不确定性。可能是意识到了这个问题并找到了解决办法，GPT-5 的幻觉率大幅下降。

随着 AI 大模型在医疗咨询、法律建议等高风险领域的应用加深，幻觉问题愈发棘手。因此，许多研究者都在努力攻克这一难题。除了像 OpenAI 那样寻找幻觉原因，还有人在研究幻觉检测技术。然而，现有的检测技术在实际应用中面临瓶颈，通常只能用于简短的事实性查询，或需要昂贵的外部资源验证。

AI模型幻觉检测新突破：实时识别长篇文本中的幻觉实体幻觉检测 AI模型长篇文本实时识别第2张

AI模型幻觉检测新突破：实时识别长篇文本中的幻觉实体幻觉检测 AI模型长篇文本实时识别第3张

针对这一挑战，来自苏黎世联邦理工学院（ETH）和 MATS 的一项新研究提出了一种低成本、可扩展的检测方法，能够实时识别长篇内容中的“幻觉 token”，并成功应用于高达 700 亿（70B）参数的大型模型。

论文标题：Real-Time Detection of Hallucinated Entities in Long-Form Generation

论文地址：https://arxiv.org/abs/2509.03531

代码地址：https://github.com/obalcells/hallucination_probes

项目地址：https://www.hallucination-probes.com/

代码和数据集：https://github.com/obalcells/hallucination_probes

该方法的核心是精准识别实体级幻觉，例如捏造的人名、日期或引文，而非判断整个陈述的真伪。这种策略使其能够自然地映射到 token 级别的标签，从而实现实时流式检测。

AI模型幻觉检测新突破：实时识别长篇文本中的幻觉实体幻觉检测 AI模型长篇文本实时识别第4张

通过 token 级探针检测幻觉实体。在长文本生成场景（Long Fact、HealthBench）中，线性探针的性能远超基于不确定性的基线方法，而 LoRA 探针则进一步提升了性能。该探针同样在短文本场景（TriviaQA）以及分布外推理领域（MATH）中表现出色。图中展示的是 Llama-3.3-70B 模型的结果。

为实现这一目标，研究人员开发了一种高效的标注流程。他们利用网络搜索来验证模型生成内容中的实体，并为每一个 token 标注是否有事实依据。基于这个专门构建的数据集，研究人员通过线性探针（linear probes）等简洁高效的技术，成功训练出精准的幻觉分类器。

AI模型幻觉检测新突破：实时识别长篇文本中的幻觉实体幻觉检测 AI模型长篇文本实时识别第5张