当前位置:首页 > 科技资讯 > 正文

AI时钟阅读挑战:顶尖模型为何纷纷折戟?

普通人类准确率高达89.1%,而AI最佳表现仅为13.3%。在新视觉基准ClockBench上,就连11个大型模型也栽在了这道看似简单的「小学题」——读模拟时钟上。是测试难度过高,还是AI真的不行?

一道连90%人类都能轻松解决的读钟题,却让顶尖AI全军覆没!

视觉基准测试ClockBench由AI基准创建者、连续创业者Alek Safar推出,专注于评估AI的「理解」模拟时钟的能力。

结果令人惊讶:

人类平均准确率高达89.1%,而参与测试的11个主流大模型的最佳成绩仅为13.3%。

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第1张

从难度上看,这几乎与「AGI终极测试」ARC-AGI-2相当,甚至超过了「人类终极考试」的难度。

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第2张

ClockBench共包含180个时钟、720道问题,展示了当前最前沿大语言模型(LLM)的局限性。

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第3张

论文链接:https://clockbench.ai/ClockBench.pdf

尽管这些模型在多项基准测试中展现出了惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能的原因包括:

训练数据未覆盖足够的可记忆时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

不过,也有好消息:表现最好的模型已展现出一定的视觉推理(尽管有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

过去几年里,大语言模型(LLM)在多个领域取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第4张

即使是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。

一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4的得分仅2.7%,而xAI Grok 4却提升到25.4%;

结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第5张

因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么?

  • 36个全新设计的定制表盘,每个表盘生成5个样本时钟
  • 总计180个时钟,每个时钟设置4个问题,共720道测试题
  • 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第6张

结果出乎意料

  • 模型与人类不仅正确率差距巨大,错误模式也截然不同:
  • 人类误差中位数仅3分钟,最佳模型却高达1小时

AI时钟阅读挑战:顶尖模型为何纷纷折戟? AI 模拟时钟 ClockBench 视觉推理 第7张