当前位置：首页 > 科技资讯 > 正文

AI推理缺陷：顶尖模型在意外事件中表现逊于人类

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第1张

一个由哥伦比亚大学、Vector人工智能研究所以及南洋理工大学组成的联合研究团队发现：顶尖的人工智能模型在处理意外事件时，其推理能力存在显著缺陷。

即使是像GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型（VLM），其表现也远不及人类，差距最高可达32%。

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第2张

研究论文可在https://arxiv.org/pdf/2412.05725查看。该论文名为《黑天鹅》，其中指出当前主流的AI评估方式存在根本性问题：大多数基准测试都是围绕“常规模式”构建的，即它们主要关注可预测、规律清晰的视觉场景。

然而，现实世界充满了意外、突变和违反常识的“黑天鹅事件”。人类之所以能处理这些状况，是因为我们拥有两种核心推理能力。

第一种是溯因推理（abductive reasoning），即从有限的观察中推断出最可能的解释。例如，看到路口有两辆撞坏的汽车，人们会推测是一名司机闯了红灯。

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第3张

第二种是可废止推理（defeasible reasoning），即在新证据出现时修正最初的结论。比如，当发现路口的交通信号灯发生故障时，人们会放弃“司机闯红灯”的假设，转而认为是信号灯的问题。

如果AI要成为自动驾驶汽车等领域的可靠决策者，这两种推理能力至关重要。

“黑天鹅套件”：为意外情况设计的基准测试

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第4张

为了准确评估AI在意外情况下的推理能力，研究团队开发了一个名为“BlackSwanSuite”（黑天鹅套件）的全新基准测试。

这个基准测试包含了1655个视频，涵盖了各种打破常规的真实场景，如交通事故、儿童失误、泳池滑倒等。

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第5张

研究者将每个视频分为三部分：事发前 (Vpre)、事发时 (Vmain)和事发后 (Vpost)，这种结构化的处理方式为设计针对性的推理任务奠定了基础。基于此，团队设计了三大核心任务，共计超过15000个问题。

第一个任务是“预测者”（Forecaster），模型仅观看视频的开头，然后预测接下来会发生什么。

第二个任务是“侦探”（Detective），模型会看到事件的开头和结尾，但中间的关键部分被隐藏，模型需要推断出中间发生了什么。这项任务直接考验模型的溯因推理能力。

第三个任务是“报告者”（Reporter），模型可以观看完整的视频，然后描述整个事件的来龙去脉。同时，模型还需要重新评估之前基于不完整信息做出的判断。这直接测试了模型的可废止推理能力。

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第6张

所有顶尖的AI模型，包括GPT-4o、Gemini 1.5 Pro以及多种开源系统（如LLaVA-Video、VILA、VideoLLaMA 2），在三类任务中全面落后于人类。

在多项选择题上，最好的模型落后人类多达25%。在是非判断题上，这个差距更是扩大到了惊人的32%。

具体来看，在考验溯因推理的“侦探”任务中，表现最好的GPT-4o，其准确率也比人类低了24.9%。而在考验可废止推理的“报告者”任务中，GPT-4o与人类的差距更是达到了惊人的32%。

这一差距表明：AI不仅“看错”，更“改不了”。

AI推理缺陷：顶尖模型在意外事件中表现逊于人类人工智能推理能力黑天鹅事件基准测试第7张

模型往往会在最初判断后“锁定思路”，拒绝基于新证据进行推理更新。这在自动驾驶等领域可能带来致命后果。

例如，论文中展示：垃圾车应该是“装垃圾”的，但当视频中垃圾车却“掉下了一棵树”，AI模型当场宕机。

再例如：一段视频中，一名男子手持枕头在圣诞树旁挥舞。GPT-4o判断他想攻击身边的人。但实际情况是：枕头碰到了圣诞树，装饰物从树上掉落，砸中了旁边的女性。

即便事实已推翻原猜测，模型也不做修正。这种“第一印象即终审判”的僵化思维成了AI在现实世界中的最大隐患。

因为它找不到这个“异常行为”的参考模式。根源在于，AI模型依赖的是海量训练样本的“统计模式”。它们在训练中学习的是“什么事发生过很多次”，而不是“这事的因果关系是什么”。所以，只要场景偏离了“常规轨迹”，它们就无法处理。

为了进一步探究问题的根源，研究团队进行了一项关键实验。他们直接向AI模型提供由人类撰写的、对视频内容的文字描述，从而绕过模型自身的视觉感知环节。

结果显示，在获得了人类级别的感知和理解输入后，模型的推理准确率提升了高达10%。这一发现表明，当前AI的核心短板不仅在于高级推理，更在于基础的感知和理解能力。

本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260437241.html