当前位置:首页 > 科技资讯 > 正文

AI推理缺陷:顶尖模型在意外事件中表现逊于人类

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第1张

一个由哥伦比亚大学、Vector人工智能研究所以及南洋理工大学组成的联合研究团队发现:顶尖的人工智能模型在处理意外事件时,其推理能力存在显著缺陷。

即使是像GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远不及人类,差距最高可达32%

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第2张

研究论文可在https://arxiv.org/pdf/2412.05725查看。该论文名为《黑天鹅》,其中指出当前主流的AI评估方式存在根本性问题:大多数基准测试都是围绕“常规模式”构建的,即它们主要关注可预测、规律清晰的视觉场景。

然而,现实世界充满了意外、突变和违反常识的“黑天鹅事件”。人类之所以能处理这些状况,是因为我们拥有两种核心推理能力。

第一种是溯因推理(abductive reasoning),即从有限的观察中推断出最可能的解释。例如,看到路口有两辆撞坏的汽车,人们会推测是一名司机闯了红灯。

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第3张

第二种是可废止推理(defeasible reasoning),即在新证据出现时修正最初的结论。比如,当发现路口的交通信号灯发生故障时,人们会放弃“司机闯红灯”的假设,转而认为是信号灯的问题。

如果AI要成为自动驾驶汽车等领域的可靠决策者,这两种推理能力至关重要。

“黑天鹅套件”:为意外情况设计的基准测试

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第4张

为了准确评估AI在意外情况下的推理能力,研究团队开发了一个名为“BlackSwanSuite”(黑天鹅套件)的全新基准测试。

这个基准测试包含了1655个视频,涵盖了各种打破常规的真实场景,如交通事故、儿童失误、泳池滑倒等。

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第5张

研究者将每个视频分为三部分:事发前 (Vpre)、事发时 (Vmain)和事发后 (Vpost),这种结构化的处理方式为设计针对性的推理任务奠定了基础。基于此,团队设计了三大核心任务,共计超过15000个问题。

第一个任务是“预测者”(Forecaster),模型仅观看视频的开头,然后预测接下来会发生什么。

第二个任务是“侦探”(Detective),模型会看到事件的开头和结尾,但中间的关键部分被隐藏,模型需要推断出中间发生了什么。这项任务直接考验模型的溯因推理能力。

第三个任务是“报告者”(Reporter),模型可以观看完整的视频,然后描述整个事件的来龙去脉。同时,模型还需要重新评估之前基于不完整信息做出的判断。这直接测试了模型的可废止推理能力。

严峻挑战:顶尖模型的显著短板

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第6张

所有顶尖的AI模型,包括GPT-4o、Gemini 1.5 Pro以及多种开源系统(如LLaVA-Video、VILA、VideoLLaMA 2),在三类任务中全面落后于人类。

在多项选择题上,最好的模型落后人类多达25%。在是非判断题上,这个差距更是扩大到了惊人的32%。

具体来看,在考验溯因推理的“侦探”任务中,表现最好的GPT-4o,其准确率也比人类低了24.9%。而在考验可废止推理的“报告者”任务中,GPT-4o与人类的差距更是达到了惊人的32%。

这一差距表明:AI不仅“看错”,更“改不了”。

AI推理缺陷:顶尖模型在意外事件中表现逊于人类 人工智能 推理能力 黑天鹅事件 基准测试 第7张

模型往往会在最初判断后“锁定思路”,拒绝基于新证据进行推理更新。这在自动驾驶等领域可能带来致命后果。

例如,论文中展示:垃圾车应该是“装垃圾”的,但当视频中垃圾车却“掉下了一棵树”,AI模型当场宕机。

再例如:一段视频中,一名男子手持枕头在圣诞树旁挥舞。GPT-4o判断他想攻击身边的人。但实际情况是:枕头碰到了圣诞树,装饰物从树上掉落,砸中了旁边的女性。

即便事实已推翻原猜测,模型也不做修正。这种“第一印象即终审判”的僵化思维成了AI在现实世界中的最大隐患。

因为它找不到这个“异常行为”的参考模式。根源在于,AI模型依赖的是海量训练样本的“统计模式”。它们在训练中学习的是“什么事发生过很多次”,而不是“这事的因果关系是什么”。所以,只要场景偏离了“常规轨迹”,它们就无法处理。

为了进一步探究问题的根源,研究团队进行了一项关键实验。他们直接向AI模型提供由人类撰写的、对视频内容的文字描述,从而绕过模型自身的视觉感知环节。

结果显示,在获得了人类级别的感知和理解输入后,模型的推理准确率提升了高达10%。这一发现表明,当前AI的核心短板不仅在于高级推理,更在于基础的感知和理解能力。