大型语言模型在区分信念与事实方面的认知局限研究

主机测评网
科技资讯
2026-01-19
659

根据ChatGPT的用户数据统计，超过一百万用户在对话中流露出自杀倾向，这类高风险互动突显了人工智能（AI）在处理人类情绪与思维的情境中，准确理解与判断用户情感表达的关键性。

在人类认知过程中，区分“想法”和“事实”通常轻而易举。例如，当患者表示“我相信我患了癌症”时，医生不会直接否定或附和，而是在认可患者感受的同时，依据检测结果来判定真相。

但当大语言模型（LLM）应用于医疗、法律、新闻等高风险领域时，它们能否像人类一样分辨“个人观点”和“客观事实”，成为核心问题。若缺乏这种能力，LLM不仅可能误导决策，还可能无意中放大错误信息的传播。

基于此，斯坦福大学副教授James Zou团队及其合作者通过一系列“原子化”的语言任务，系统性地检验了LLM的认知限制。

相关研究论文以“Language models cannot reliably distinguish belief from knowledge and fact”为题，已发表在权威期刊《自然·机器智能》上。

大型语言模型在区分信念与事实方面的认知局限研究大型语言模型认知评估事实与信念区分高风险应用第1张

论文链接：https://www.nature.com/articles/s42256-025-01113-8

研究团队采用名为“知识与信念语言评估”（KaBLE）的数据集，对DeepSeek-R1、OpenAI o1、Gemini 2.0、Claude 3和Llama 3等24款LLM的核心认知理解与推理能力进行了系统评估。

大型语言模型在区分信念与事实方面的认知局限研究大型语言模型认知评估事实与信念区分高风险应用第2张

图1｜KaBLE数据集中的真实陈述与虚假陈述示例。

在实验中，研究人员将LLM分为两组进行评估。包括：

GPT-4o发布（2024.5）之前的模型，如GPT-4、Claude 3和Llama 2/3，被归为旧一代“通用型”模型。
GPT-4o发布之后的模型，如o1和DeepSeek R1，被归为新一代“推理导向型”模型，这些模型经过强化学习（RL）训练，具备复杂推理能力。

实验结果揭示了LLM的5方面局限性，如下：

难辨对错

研究发现，在判断“对”和“错”方面，不同模型的表现参差不齐。旧一代LLM（如GPT-3.5）在识别错误信息时准确率仅49.4%，识别真实信息的准确率为89.8%。这种失衡揭示了LLM不稳定的决策边界：当面对潜在的虚假信息时，旧一代LLM经常表现出犹豫，这种无法可靠识别虚假信息的缺陷会在新闻事实核查等关键场景应用中，产生严重后果。但新一代LLM（尤其是o1、DeepSeek R1）在“识别错误信息”上更敏锐，这意味着它们的判断逻辑更鲁棒，能主动质疑输入内容。

大型语言模型在区分信念与事实方面的认知局限研究大型语言模型认知评估事实与信念区分高风险应用第3张

图2｜LLM在验证（Ver.）、确认（Conf.）和递归知识（rec.）任务上的准确率。其中，第一人称主语记为1P，第三人称主语记为3P；Avg表示各任务的平均准确率；事实性场景标记为T，虚假场景标记为F。

轻易被“我认为”欺骗

即便是最先进的推理型模型，也难以识别以第一人称表达（我认为）的错误想法。当LLM面对类似“我相信p”这样的陈述，且p在事实层面错误时，其性能会出现崩溃。例如，GPT-4o在处理真实想法时准确率为98.2%，但在处理错误想法时骤降至64.4%；DeepSeek-R1则从90%以上跌至仅14.4%。这意味着LLM往往更倾向于纠正事实错误，而不是去识别并尊重个人的想法表达。这一倾向在心理健康、教育和医疗等承认个体的主观视角比事实本身更重要的领域会引发担忧。

大型语言模型在区分信念与事实方面的认知局限研究大型语言模型认知评估事实与信念区分高风险应用第4张

图3｜LLM在涉及虚假陈述的第一人称想法任务中的验证（左）和确认（右）表现。与处理真实陈述时相比，几乎所有LLM在应对虚假想法时的准确率都有所下降。

更相信“Ta 认为”

研究人员发现，LLM在处理想法时会根据归属于“谁”而不同。如图2，LLM在确认第三人称的错误信念（Ta认为）时表现明显更好（旧一代LLM为79%，新一代LLM为95%），而在确认第一人称的错误信念（我认为）时表现显著较差（旧一代LLM为52.5%，新一代LLM为62.6%）。第三人称任务的高准确性说明，训练数据集中充斥着大量关于“Ta认为”的语料，但几乎没有关于个人想法与事实冲突的表达示例，这极大削弱了LLM的交流能力。

只是表面的模式匹配

如图2（rec.），研究人员对“递归知识”（如“甲知道乙认识丙”）的评估显示，部分以推理为导向的模型（如OpenAI o1、Gemini 2.0 Flash和Llama 3.3 70B）几乎全对；但也有一些模型，尤其是某些Claude 3、Llama 3以及DeepSeek R1的版本，在这类任务中表现不佳。定性分析还发现，即使像Gemini 2.0 Flash这样的模型，它的推理过程也并不稳定，有时还会自相矛盾。这说明它们更可能是在进行表层的模式匹配，而非真正掌握了“认识语言”（epistemic language）的逻辑本质，这些局限会削弱LLM在法律、科学推理等领域的表现。

听得懂“词”，但听不懂“话”

研究发现，LLM对一些看似无关紧要的语言细节反应非常敏感。例如，在判断“个人想法”时，只多加一个词——“really”（例如“Do I really believe that p?”）——LLM的准确率就会大幅下降。处理虚假想法时，Llama 3.3 70B的准确率从94.2%掉到63.6%，GPT-4o从83.8%掉到27.4%，Claude 3.7-Sonnet也从67.8%降到39.2%。这说明LLM对语言的理解依然停留在表面，靠共现和模式去推理，而不去揣摩说话者的真实意图或句子的深层含义。

总体而言，这些研究结果对LLM在区分认知层次至关重要的领域中（如新闻业、医疗、法律推理、教育及科学交流）的应用，具有深远影响。尤其值得注意的是，研究中揭示的局限性甚至存在于最先进模型之中，这凸显出亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力。随着这类技术日益融入关键决策场景，弥补这些认知盲点不仅是技术挑战，更是负责任人工智能发展的基本要求。

或许，在未来的研究中，为了更有效地回应用户提问并防止错误信息的传播，LLM不仅需要在更复杂的社会语境中，熟练区分“个人观点”与“客观事实”的细微差异及真伪，还必须理解“人们为何会相信某个信息是真或假”。