当前位置:首页 > 科技资讯 > 正文

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板

最新视觉基准测试ClockBench揭示了一个惊人结果:读取模拟时钟这项基础任务,人类平均准确率高达89.1%,而参与测试的11个主流大模型中表现最佳的仅达到13.3%。这道看似简单的“小学题”,为何让先进AI束手无策?是测试设计存在偏差,还是AI在核心推理能力上仍有欠缺?

一项针对模拟时钟读取能力的基准测试显示,超过90%的人类能够轻松完成的任务,顶尖AI模型却集体遭遇滑铁卢。

该测试由AI基准创建者、连续创业者Alek Safar推出,名为ClockBench,专门评估AI系统“看懂”模拟时钟的视觉与推理能力。

测试结果令人震惊:

人类参与者的平均准确率为89.1%,而11个主流大模型中,成绩最好的也仅仅达到13.3%。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第1张

就难度等级而言,ClockBench与“AGI终极测试”ARC-AGI-2相当,甚至比所谓的“人类终极考试”更具挑战性。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第2张

ClockBench数据集包含180个不同设计的时钟图像,共计720道问题,旨在全面检验当前前沿大语言模型(LLM)在特定视觉推理任务上的局限性。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第3张

论文链接:https://clockbench.ai/ClockBench.pdf

尽管这些模型在诸多基准测试中展现了强大的推理、数学与视觉理解能力,但这些能力并未有效转化为“读表”技能。潜在原因包括:训练数据可能缺乏足够多样化的时钟特征与时间组合,迫使模型必须通过实时推理来建立指针、刻度与读数之间的复杂映射关系。同时,时钟的视觉结构难以被完整编码到文本空间中,导致基于文本的推理过程受到限制。

研究中也发现了一线希望:表现最佳的模型已经展现出一定程度的视觉推理能力(尽管仍然有限)。其在读取时间上的准确率与中位误差均显著优于随机猜测水平。未来需要进一步探索,这些能力是否可以通过扩展现有范式(如增加数据、扩大模型规模、提升计算与推理预算)来获得,还是必须依赖全新的方法突破。

ClockBench如何深度评估AI能力?

近年来,大语言模型(LLM)在多领域取得显著进展,导致许多流行基准测试迅速被模型“饱和”攻克。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第4张

即便是那些专门设计用于考察“专业知识与强推理能力”的最新基准,也很快被模型突破。

一个典型例子是“人类终极考试”(Humanity’s Last Exam):

在该基准上,OpenAI的GPT-4o最初得分仅为2.7%,而xAI的Grok 4则提升至25.4%;

结合工具使用等优化策略后,部分模型的成绩甚至能够进入40–50%的区间。

然而,研究社区依然发现,一些对人类而言轻而易举的任务,AI的表现却差强人意。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第5张

因此,像SimpleBench和ARC-AGI这类基准应运而生,它们的设计理念是:对普通人来说非常简单,但对LLM却异常困难

ClockBench正是受这种“人类易,AI难”的思路启发而构建。研究团队基于一个关键观察:无论对于推理型还是非推理型模型,准确解读模拟时钟同样具有挑战性。因此,ClockBench构建了一个需要高度视觉精度和复杂推理能力的稳健数据集。

ClockBench的具体构成如下:

  • 包含36个全新设计的定制表盘,每个表盘衍生出5个样本时钟。
  • 总计180个时钟图像,每个时钟对应4个问题,共形成720道测试题目。
  • 测试涵盖了来自6家研究机构的11个具备视觉理解能力的模型,并与5名人类参与者的表现进行对比。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第6张

测试问题主要分为四大类别:

1. 判断时间有效性

给定一个时钟图像🕰️,模型需要判断其显示的时间是否合法有效。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第7张

如果时间有效,模型需要将其分解为多个组成部分,并以JSON格式输出:小时(Hours)、分钟(Minutes)、秒(Seconds)、日期(Date)、月份(Month)、星期几(Day of the week)。只要表盘包含相关元素,模型就需要一并输出。

2. 时间的加减计算

此任务要求模型对给定时间进行加减运算,并得出新的时间结果。

3. 旋转时钟指针

此项任务涉及操作时钟的指针。模型需要选择时针、分针或秒针,并按照指定角度和方向(顺时针或逆时针)进行旋转模拟。

4. 时区转换

此项任务考察全球不同地区的时间换算🌍。例如,给定纽约的夏令时,模型需要推算出其他指定地点的当地时间。

测试结果揭示深层差距

测试结果带来了哪些意料之外的发现?

  • 模型与人类不仅在正确率上存在巨大鸿沟,其错误模式也完全不同。
  • 人类参与者的时间读取误差中位数仅为3分钟,而表现最佳模型的误差中位数高达1小时。

表现较弱模型的误差大约在3小时左右,结合12小时制表盘的循环特性,这几乎等同于随机猜测的水平。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第8张

另一个有趣的发现是,对于时钟某些特定特征的识别,难度存在显著差异:

  • 在读取设计非常规的复杂钟表以及需要高精度判读的场景时,模型的表现最差。
  • 罗马数字与环形数字的朝向最难被模型识别,其次是秒针位置、杂乱背景干扰以及镜像时钟。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第9张

值得注意的是,除了直接读取时间外,模型在其他类型问题上的表现反而相对更好:

  • 表现最佳的模型能够以较高精度回答时间加减、指针旋转角度计算或时区转换问题,在某些场景下准确率甚至可达100%。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第10张

在不同模型的横向对比中,总体趋势显示:规模更大、注重推理的模型普遍优于规模较小或非专门推理优化的模型

然而,也存在一些值得关注的现象:

  • 谷歌的Gemini 2.5系列模型在各自类别中往往处于领先地位;
  • Anthropic的系列模型则普遍落后于同级别竞争对手;
  • xAI的Grok 4表现远低于其模型规模与通用能力所应达到的预期水平。

ClockBench视觉基准测试:AI读钟能力大幅落后人类,暴露推理短板 ClockBench AI视觉推理 模拟时钟 大模型评估 第11张

GPT-5在此次测试中排名第三,且增加推理预算对结果改善影响不大(中等与高预算下的得分高度接近)。这引发思考:究竟是何种因素制约了GPT-5在此类视觉推理任务上的表现?

在原始数据集中,180个时钟里有37个显示的是无效(不可能存在)的时间。无论是人类还是AI模型,在识别这些“无效时间”时都表现出更高的成功率

  • 人类差异较小:在无效时钟上的准确率为96.2%,在有效时钟上为89.1%
  • 模型差异显著:在无效时钟上的准确率平均高出349%,所有模型在此类任务中表现均更优;
  • Gemini 2.5 Pro依旧是总体最佳模型,识别无效时钟的准确率达到40.5%
  • Grok 4则成为一个异常值:它在识别无效时钟上的准确率最高,达64.9%,但问题在于,它将整个数据集中63.3%的时钟都标记为无效,这表明其结果很可能含有大量“随机猜对”的成分。

在模型能够正确读取时间的时钟图像上,存在明显的重叠现象:

  • 61.7%的时钟没有被任何模型正确读出;
  • 38.3%的时钟至少被1个模型读对;
  • 22.8%的时钟至少被2个模型读对;
  • 13.9%的时钟至少被3个模型读对;
  • 8.9%的时钟至少被4个或以上的模型读对。

整体分布表明,模型的正确答案集中在一小部分相对“容易”的时钟图像上,而非均匀覆盖整个数据集。

参考资料

https://x.com/alek_safar/status/1964383077792141390

https://clockbench.ai/