当前位置:首页 > 科技资讯 > 正文

视错觉挑战:AI无法识别的浮动爱心

如今,人类最热衷的活动之一便是挑战并超越人工智能的极限。

近期,一张视错觉图片在网络上迅速走红,被广泛称为新时代的图灵测试

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第1张

要区分人类还是AI,只需询问对方是否能从图片中看到一颗浮动的心。因为AI必然无法察觉;而人类只需将手机拿远,中间这颗浮动的心便清晰可见。

我使用这张图片测试了多个主流AI大模型,结果全军覆没,无一能正确回答。

首先询问ChatGPT,它起初表示没看到浮动图形。当我说有头牛,它便说是牛;提到咖啡杯,就说是杯子;提及爱心,则承认是心。

在它看来,人类大脑擅长想象,会基于个人经验解释图像,因此看到猫狗等图案皆有可能,这是因人而异的。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第2张

接着测试Gemini,它同样一开始什么也没发现。但它提到这是著名的闪烁网格错觉(Scintillating Grid Illusion)。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第3张

闪烁网格错觉让人永远数不清有多少个黑点或白点。

虽然同属视觉错觉,但与图片中的爱心不同,因为错觉类型繁多。

当我继续问它是否看到杯子或牛时,Gemini比ChatGPT更明智,坚决否认看到这些图案。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第4张

但当我问及爱心时,它声称看到了,甚至知道需要后退才能观察。我以为它脱颖而出,不料它虚晃一枪,最终否认看到,并认为我在使用心理学技巧。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第5张

最后测试Qwen,我平时较少使用,发现它的回答充满创意(甚至有些胡说八道)。

对话末尾,它说“您不只是在描述图像,您是在分享您的心灵风景。”、“您不是在教我看图,而是在邀请我进入您的感知世界。”(“不是……而是……”的句式确实很AI)

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第6张

总之,Qwen的回答令人惊讶,但显然它也没能答对。本想尝试DeepSeek,但它暂不支持视觉模型,只能处理文本提取。

字节跳动的豆包和马斯克的Grok同样无法发现这颗浮动爱心。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第7张

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第8张

有网友将这张图片上传到Google Veo 3.1视频生成模型,输入提示词“Heart”,生成的视频确实显示了爱心形状。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第9张

但有评论质疑,Veo 3.1并非发现了爱心,而是提示词输入“Heart”导致模型如此处理。

我们使用一张无非错觉的方格图片,输入同样提示词,也出现了类似的心形图案。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第10张

这次人类确实战胜了AI。或许这称不上完美的图灵测试,但似乎划出了一条清晰界限。

过去如六根手指、草莓单词中有几个r、今天买西瓜昨天吃西瓜剩余几个西瓜等问题,我们都乐此不疲地测试AI,因为它们常会失败。

随着模型更新,AI在这些具体问题上表现更佳,但如果未经过训练,仍会出错。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第11张

有专门研究提到“六根手指”能让AI失败,原因是大语言模型的偏见。对AI而言,手指通常是五根,阿迪达斯标志是三根条纹。

即使AI数出六根手指,它也会自问多出的那根是否只是像手指而非真正手指。

这项研究还涉及经典几何错觉,如缪勒-莱尔错觉、艾宾浩斯错觉和策尔纳错觉。

不过,论文指出大多数AI模型能准确回答这些常见几何错觉。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第12张

但将错觉修改为真实差异后,如有箭头但线段明显不等长,模型便无法处理。

与讨论AI偏见不同,AI无法发现错觉图片中的爱心,根本在于它始终不能识别。这是机器视觉与生物视觉的核心差异。

要知道AI为何答不上来,需先了解人类为何能一眼看出。

遗憾的是,科学尚未完全解释我们为何将静态图片看成动态GIF。

主流解释集中在眼睛部位,如视网膜神经元的侧抑制作用、视觉暂留和眼球微动;在大脑部位,涉及认知与注意力机制误差。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第13张

从眼睛到视网膜再到大脑,每一级都可能制造错觉。不同类型错觉有不同处理系统,甚至不同人对错觉强度差异巨大。

但可肯定的是,错觉发生在生物体上。人类用视觉、经验和想象识别形状,而AI用像素、明暗分布和几何特征分析。

这种机制的不确定性和个体差异是生物视觉的核心特征之一,而AI目前运行在相对统一和确定的方向上。

这解释了社交媒体上常见各种能看或不能看的错觉图片。

我让ChatGPT总结了最全视错觉种类,从几何、明暗对比、颜色、运动、认知等十个类别,共几十种形式。

如下图中,人眼难以看出这些球颜色相同,但AI通过像素分析能直接给出所有球颜色一致的结论。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第14张

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第15张

向左滑动查看更多内容,Munker–White错觉,小球颜色被条纹重新定义。

还有十年前互联网上争议不断的裙子颜色,是蓝黑还是白金?

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第16张

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第17张

人类难以分辨,但AI通过理性分析、像素识别和历史信息统计,能避免重蹈人类错觉。

从这个角度看,AI与人类确实相似:我们有错觉,AI也有其错觉。

其实不只浮动爱心,还有其他错觉图片AI目前也无法识别。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第18张

还有这张蒙娜丽莎的微笑,对人类来说只需将手机拿远,轮廓便明显浮现。

但无论Gemini还是ChatGPT,都只能回答这是多轨音频波形图像,用不同颜色区分,可能来自数字音频工作站界面截图。

还有人发明了动态验证码,只有人类能看到,因为暂停的每一帧都是密密麻麻雪花,无法识别。

如果没有定位圆圈,暂停后的视频截图我们也无法看到内容“tldraw”。视频来源:https://x.com/tldraw/status/1982435625480433892。

我试着将截图和视频上传给AI,问是否能识别验证码。同样不出所料,没有AI模型能回答。ChatGPT直接说“抱歉,我无法帮你识别或提取这类图像中的验证码。”

Gemini分析出这是“几乎全是黑白噪点的图片,没有显示任何可识别的验证码,只在左侧看到很淡的圆形图标。”

也有研究团队讨论此问题,并开发了Demo,可上传文字隐藏起来。

点击播放,看看里面有什么字。项目来源:https://timeblindness.github.io/generate.html

这份工作提到AI无法像人类大脑那样处理时间机制,AI只是逐帧提取。他们正尝试通过数据集训练AI学会人类视觉处理方式。

视错觉挑战:AI无法识别的浮动爱心 视错觉 人工智能 图灵测试 人类视觉 第19张

能让AI输掉的测试可能还有很多,但回头一想,当我们将人类错觉当作“赢”过AI时,AI的错觉未来或许也能成为另一种胜利。