当前位置:首页 > 科技资讯 > 正文

AI数手指难题揭示Transformer架构的视觉缺陷

近日,互联网用户们被AI的「手指计数问题」彻底难倒。当展示一张六指手的图片时,AI始终无法准确标注手指数量。这背后,是否暴露了Transformer架构的「阿喀琉斯之踵」?

最近几天,整个网络陷入热议——

AI,正通过数手指来挑战人类的认知。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第1张

人类向AI提出的任务很简单:在图片中的每根手指上,按顺序标记数字。

当然,题目设置了一个小陷阱,即这只手实际上有六根手指。

结果,Nano Banana Pro毫不犹豫地在手上标注了1、2、3、4、5,完全忽略了其中一根手指。

这荒谬的场景,再次让网友们感到震惊。

AI模型真的如此愚蠢吗?

许多人持否定态度——或许,AI只是在假装无知,以此戏弄人类。

很可能,它是在嘲讽那些试图测试自己的普通用户。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第2张

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第3张

为了通过图灵测试,AI可能需要表现得稍显笨拙,以更接近人类行为。如果过于聪明,人类反而会感到不安。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第4张

GPT-5.2,同样遭遇失败

有人将这个问题提交给GPT-5.2,并在提示中明确说明图片中有六根手指。

但面对「图中有几根手指」的提问,GPT-5.2仍然坚定地回答:五根!

其理由是:人类通常有五根手指,因此图片中若出现其他数量便是错误的。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第5张

还有人绘制了形状怪异的手指,连人类都难以辨认。

但对于这张图片,Nano Banana Pro依旧果断回应:5根,我确信,就是5根!

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第6张

总之,无论图片如何变化,AI始终无法数出6根手指。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第7张

为了让AI数对手指,用户们绞尽脑汁

有些人不服输,非要让模型正确标注数字。

他直接给出指示:将数字4左移一个手指,将数字5左移一个手指,然后在大拇指位置写上6。

这应该足够清晰了吧?然而,模型依然不听从,直接忽略了数字3。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第8张

用户几乎被逼到崩溃。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第9张

其他网友为了帮助他,想出各种奇招,比如让模型将手绘数字改为电子版本,终于取得成功。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第10张

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第11张

也有人指示模型从小指到大拇指依次放置数字,避免重复,结果也成功了。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第12张

AI数手指出错的原因

那么,为什么AI很难正确数出手指数量呢?

有人给出解释:AI寻找的是基本形状,而非精确图像,然后将该形状代表的传统认知与实际外观进行比较。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第13张

有人猜测,是否可以通过告诉AI这不是手,而是不规则物体,来规避AI大脑中的「偏见」?

结果,这一策略果然奏效。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第14张

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第15张

网友们随后测试了各种奇异形状的手,果然,这次Gemini就给出了正确答案。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第16张

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第17张

或许AI之前已被训练识别特定的表情符号,如果换成其他图像,它反而能进行正确的视觉推理。

手指难题:当前AI的重大缺陷

这次AI数手指的失败,揭示了当前模型的一个关键弱点——思维过程的机械化和碎片化。

很可能,文本模型看到指令后,内部逻辑是:「手有五根手指,因此需要五个数字。」

所以,即使它「看到」了六指图像,其视觉识别能力也不足以纠正这种根深蒂固的文本认知。

为什么AI如此坚持「五指」概念?这源于其训练数据的基本特征。

在人类手部图像数据中,五指手占据绝对主导地位。

模型已从海量数据中学到「人手=五指」这一强关联,以至于当情况偏离时,模型会视为异常并自动纠错,而不是接受新事实。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第18张

具体来说,当前AI视觉系统的工作方式,本质上是将复杂场景简化为一系列可识别模式。

当面对像六指手这样同时包含常见元素(手部)和罕见特征(多指)的图像时,系统倾向于将其强行纳入已知模式。

图像分类器通常输出边界框和标签,但当遇到训练分布之外的物体时,边界框可能缺失或错误合并多个对象。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第19张

一个残酷的事实是,性能再强大的模型,也不真正理解「5根手指」的概念。

因为,AI看到的是纹理、形状和概率,而不是结构、数量或实体。

Transformer:并行计算的局限性

手指难题也凸显了Transformer架构的一个主要弱点。

Transformer架构的并行计算能力是当今AI快速发展的关键,但这种设计也存在代价。

单次前向传递无法有效追踪状态信息,系统难以执行需要多步骤逻辑推理的任务。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第20张

面对六指手,AI缺乏「注意到异常-重新评估-调整方案」的连贯思维链条。它只是机械地应用从训练数据中学到的最强模式。

手的特殊性在于数量固定、结构复杂、局部高度相关,而对于AI来说,多局部一致性、跨区域约束、数量不可变,恰恰是Transformer最不擅长的领域。

扩散模型的本质特性

从另一个角度分析,也可以这样理解。

扩散模型的本质是学习一个从噪声到清晰图像的概率分布逆推过程。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第21张

它擅长捕捉数据的整体分布和纹理风格(例如,生成一只「看起来像手的轮廓」)。

但在精确控制局部、离散、高对称性的结构(例如,五根长度、位置、关节关系都正确的手指)时,就显得力不从心。

从数据上看,训练数据中「五指」的绝对主导地位,使模型将「五指」视为不可违反的强统计先验。

就像一个看了100万只五指手的画家,你让他画六指手时,他总会无意识地将第六指融入到其他五指的阴影或姿势中,因为他的大脑早已深深刻入「手即五指」的概念。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第22张

从算法层面上看,扩散模型在去噪的每一步,都是基于整个图像的潜在表示进行全局预测。它没有为「手指」这类特定结构设立显式的、受保护的局部计算单元。

因此,细微的噪声扰动或步骤误差,很容易在密集区域被放大,导致细节扭曲。

从架构层面看,现有模型是「端到端」的,直接从文本提示映射到像素。中间缺乏一个明确的、符号化的结构表示层。

因此,「长什么样」和「结构是什么」两者冲突时,它就会陷入混乱。

而如果想解决这些瓶颈,或许业界需要采用混合建模模式——将扩散模型(擅长纹理)与显式结构模型(如3D网格)结合。

或者引入局部注意力与约束——在模型架构中强化对特定区域(如手部)的局部注意力机制,或在训练/推理过程中引入几何约束损失函数。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第23张

当代AI的阿喀琉斯之踵

令人感慨的是,Transformer最强的地方(Token-to-token预测),反而成了它的致命短板。

没有对象概念,没有显式结构约束,整个世界都被打平为token序列。

正如一位网友所言:「视觉数据的复杂性远超文本,我们可能需要数十个数量级更多的计算资源,才能真正理解和处理视觉世界的全部细微差别。」

这不由让人想起,不久前谷歌DeepMind首席科学家对当前AI的评价。

虽然在语言、知识、编码等领域,它们已远超常人,但在视觉推理、长期学习、因果关系理解上,它们仍然不足。

AI数手指难题揭示Transformer架构的视觉缺陷 人工智能 手指计数 Transformer 扩散模型 第24张

「手指难题」犹如一面镜子,照出了当前以扩散模型为代表的AI模型的阿喀琉斯之踵——

它们在学习和复现数据的连续分布上取得了革命性成功,但在理解和生成精确的离散结构和拓扑关系上,仍然依赖于数据中的强统计先验,缺乏真正的物理和几何推理能力。

而如果想要彻底解决「手指难题」,就需要更先进的架构、更多样化的训练数据,以及人类对AI能力更清醒的认识。

在这个AI无所不能的时代,「手指难题」提醒我们——

即使是如今最先进的AI,也仍在学习如何看待世界的基本细节。

参考资料:

https://www.reddit.com/r/singularity/comments/1plw8hc/i_feel_like_the_model_is_mocking_me/