普通人类准确率高达89.1%,而AI最佳表现仅为13.3%。在新视觉基准ClockBench上,就连11个大型模型也栽在了这道看似简单的「小学题」——读模拟时钟上。是测试难度过高,还是AI真的不行?
一道连90%人类都能轻松解决的读钟题,却让顶尖AI全军覆没!
视觉基准测试ClockBench由AI基准创建者、连续创业者Alek Safar推出,专注于评估AI的「理解」模拟时钟的能力。
结果令人惊讶:
人类平均准确率高达89.1%,而参与测试的11个主流大模型的最佳成绩仅为13.3%。
从难度上看,这几乎与「AGI终极测试」ARC-AGI-2相当,甚至超过了「人类终极考试」的难度。
ClockBench共包含180个时钟、720道问题,展示了当前最前沿大语言模型(LLM)的局限性。
论文链接:https://clockbench.ai/ClockBench.pdf
尽管这些模型在多项基准测试中展现出了惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能的原因包括:
训练数据未覆盖足够的可记忆时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。
时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。
不过,也有好消息:表现最好的模型已展现出一定的视觉推理(尽管有限)。其读时准确率与中位误差均显著优于随机水平。
接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。
过去几年里,大语言模型(LLM)在多个领域取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。
即使是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。
一个典型例子是Humanity’s Last Exam):
在该基准上,OpenAI GPT-4的得分仅2.7%,而xAI Grok 4却提升到25.4%;
结合工具使用等优化手段后,结果甚至能进入40–50%区间。
然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。
因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。
ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。
研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。
因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。
本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440953.html