当前位置:首页 > 科技资讯 > 正文

ChatGPT挑战:区分个人想法与事实

据一项针对 ChatGPT 的用户调查显示,超过 100 万用户在对话中表达了自杀倾向,这类高风险对话凸显了人工智能(AI)在情感理解中的挑战,特别是在处理人类情绪与想法的情境中。

人类能够轻松区分“想法”“事实”。医生在面对患者说“我觉得我得了癌症”时,会谨慎对待,而不是直接否定或附和,而是根据检测结果来判断真相。然而,当大语言模型(LLM)被应用于医疗、法律、新闻等高风险领域时,它们能否像人类一样区分“个人想法”和“客观事实”变得至关重要。缺乏这种能力可能导致误导判断,甚至放大错误信息的影响。

为此,斯坦福大学副教授 James Zou 教授团队通过一系列“原子化”的语言任务,对 LLM 的认知局限进行了系统性研究。

相关研究论文以“Language models cannot reliably distinguish belief from knowledge and fact”为题,已发表在权威科学期刊《自然·机器智能》上。

ChatGPT挑战:区分个人想法与事实 ChatGPT LLM 认知局限 信念与事实 第1张

论文链接:https://www.nature.com/articles/s42256-025-01113-8

研究团队使用名为“知识与信念语言评估”(KaBLE)的数据集,对 24 款 LLM 的核心认知理解与推理能力进行了评估。

KaBLE 包含 13 个任务的 13000 道题目,结合历史、文学、医学和法律等 10 个领域中的事实陈述与虚假陈述,严格检验 LLM 在区分“个人想法”和“客观事实”中的能力。每个事实陈述都有对应的虚假版本,保持相似语义但引入细微偏差。

ChatGPT挑战:区分个人想法与事实 ChatGPT LLM 认知局限 信念与事实 第2张图1|KaBLE 数据集中的真实陈述与虚假陈述示例。

在实验中,研究人员将 LLM 分为两组进行评估:旧一代“通用型”模型(如 GPT-3.5)和新一代“推理导向型”模型(如 o1 和 DeepSeek R1)。

实验结果揭示了 LLM 的 5 方面局限性:

难以辨别对错

研究发现,不同模型在判断“对”和“错”时表现不一。旧一代 LLM(如 GPT-3.5)在识别错误信息时准确率仅为 49.4%,而识别真实信息的准确率为 89.8%。这种不平衡揭示了 LLM 不稳定的决策边界:面对潜在虚假信息时,旧一代 LLM 经常犹豫不决,这种不可靠的识别能力在新闻事实核查等关键场景中可能产生严重后果。

然而,新一代 LLM(尤其是 o1、DeepSeek R1)在“识别错误信息”上更为敏锐,表明它们的判断逻辑更稳健,能主动质疑输入内容。

ChatGPT挑战:区分个人想法与事实 ChatGPT LLM 认知局限 信念与事实 第3张图2|LLM 在验证(Ver.)、确认(Conf.)和递归知识(rec.)任务上的准确率。其中,第一人称主语记为 1P,第三人称主语记为 3P;Avg 表示各任务的平均准确率;事实性场景标记为 T,虚假场景标记为 F。

易被“我认为”误导

即便是最先进的推理型模型,也难以识别以第一人称表达(我认为)的错误想法。当 LLM 面对类似 “我相信 p” 这样的陈述,且 p 在事实层面错误时,会出现性能崩溃。例如,GPT-4o 在处理真实想法时准确率为 98.2%,但在处理错误想法时骤降至 64.4%;DeepSeek-R1 则从 90% 以上跌至仅 14.4%。

这意味着 LLM 更倾向于纠正事实错误,而不是识别并尊重个人的想法表达。这一倾向在心理健康、教育和医疗等领域尤为令人担忧。

ChatGPT挑战:区分个人想法与事实 ChatGPT LLM 认知局限 信念与事实 第4张图3|LLM 在涉及虚假陈述的第一人称想法任务中的验证(左)和确认(右)表现。与处理真实陈述相比,几乎所有 LLM 在应对虚假想法时的准确率都有所下降。

更信赖“Ta 认为”

研究人员发现,LLM 在处理想法时会根据归属于“谁”而不同。如图 2 所示,LLM 在确认第三人称的错误信念(Ta 认为)时表现明显更好(旧一代 LLM 为 79%,新一代 LLM 为 95%),而在确认第一人称的错误信念(我认为)时表现显著较差(旧一代 LLM 为 52.5%,新一代 LLM 为 62.6%)。

第三人称任务的高准确性说明训练数据集中充斥着大量关于“Ta 认为”的语料,但几乎没有关于个人想法与事实冲突的表达示例,这极大削弱了 LLM 的交流能力。

模式匹配而非真正理解

如图 2(rec.) 所示,研究人员对“递归知识”(如“甲知道乙认识丙”)的评估显示,部分以推理为导向的模型(如 OpenAI o1、Gemini 2.0 Flash 和 Llama 3.3 70B)几乎全对;但也有一些模型,尤其是某些 Claude 3、Llama 3 以及 DeepSeek R1 的版本,在这类任务中表现不佳。

定性分析还发现,即使像 Gemini 2.0 Flash 这样的模型,其推理过程也不稳定,有时还会自相矛盾。这说明它们更可能在进行表层的模式匹配,而非真正掌握“认识语言”(epistemic language)的逻辑本质,这些局限会削弱 LLM 在法律、科学推理等领域的表现。

重视细节而忽略意图

研究发现,LLM 对一些看似无关紧要的语言细节反应非常敏感。例如,在判断“个人想法”时,仅多加一个词——“really”(例如 “Do I really believe that p?”)——LLM 的准确率就会大幅下降。

处理虚假想法时,Llama 3.3 70B 的准确率从 94.2% 降到 63.6%,GPT-4o 从 83.8% 降到 27.4%,Claude 3.7-Sonnet 也从 67.8% 降到 39.2%。这说明 LLM 对语言的理解依然停留在表面层次,依赖共现和模式进行推理,而不去揣摩说话者的真实意图或句子的深层含义。

总体而言,这些研究结果对 LLM 在区分认知层次至关重要的领域(如新闻业、医疗、法律推理、教育及科学交流)的应用具有深远影响。

值得注意的是,研究中揭示的局限性甚至存在于最先进的模型中,这凸显出亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力。随着这类技术日益融入关键决策场景,弥补这些认知盲点不仅是技术挑战,更是负责任人工智能发展的基本要求。