当前位置：首页 > 科技资讯 > 正文

AI时钟阅读挑战：顶尖模型为何纷纷折戟？

主机测评网
科技资讯
2026-04-27
798

普通人类准确率高达89.1%，而AI最佳表现仅为13.3%。在新视觉基准ClockBench上，就连11个大型模型也栽在了这道看似简单的「小学题」——读模拟时钟上。是测试难度过高，还是AI真的不行？

一道连90%人类都能轻松解决的读钟题，却让顶尖AI全军覆没！

视觉基准测试ClockBench由AI基准创建者、连续创业者Alek Safar推出，专注于评估AI的「理解」模拟时钟的能力。

结果令人惊讶：

人类平均准确率高达89.1%，而参与测试的11个主流大模型的最佳成绩仅为13.3%。

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第1张

从难度上看，这几乎与「AGI终极测试」ARC-AGI-2相当，甚至超过了「人类终极考试」的难度。

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第2张

ClockBench共包含180个时钟、720道问题，展示了当前最前沿大语言模型（LLM）的局限性。

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第3张

论文链接：https://clockbench.ai/ClockBench.pdf

尽管这些模型在多项基准测试中展现出了惊人的推理、数学与视觉理解能力，但这些能力尚未有效迁移到「读表」。可能的原因包括：

训练数据未覆盖足够的可记忆时钟特征与时间组合，模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间，导致基于文本的推理受限。

不过，也有好消息：表现最好的模型已展现出一定的视觉推理（尽管有限）。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究，以判定这些能力能否通过扩大现有范式（数据、模型规模、计算/推理预算）来获得，还是必须采用全新的方法。

ClockBench如何拷打AI？

过去几年里，大语言模型（LLM）在多个领域取得了显著进展，前沿模型很快在许多流行基准上达到了「饱和」。

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第4张

即使是那些专门设计来同时考察「专业知识与强推理能力」的最新基准，也出现了快速突破。

一个典型例子是Humanity’s Last Exam）：

在该基准上，OpenAI GPT-4的得分仅2.7%，而xAI Grok 4却提升到25.4%；

结合工具使用等优化手段后，结果甚至能进入40–50%区间。

然而，我们仍然发现一些对人类而言轻而易举的任务，AI表现不佳。

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第5张

因此，出现了SimpleBench以及ARC-AGI这类基准，它们被专门设计为：对普通人来说很简单，但对LLM却很难。

ClockBench正是受这种「人类容易，AI困难」的思路启发而设计。

研究团队基于一个关键观察：对推理型和非推理型模型来说，读懂模拟时钟同样很难。

因此，ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么？

36个全新设计的定制表盘，每个表盘生成5个样本时钟
总计180个时钟，每个时钟设置4个问题，共720道测试题
测试了来自6家实验室的11个具备视觉理解能力的模型，并招募5名人类参与者对比

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第6张

结果出乎意料

模型与人类不仅正确率差距巨大，错误模式也截然不同：
人类误差中位数仅3分钟，最佳模型却高达1小时

AI时钟阅读挑战：顶尖模型为何纷纷折戟？ AI 模拟时钟 ClockBench 视觉推理第7张

性价比vps 服务器教程阿里云服务器

本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440953.html

AI时钟阅读挑战：顶尖模型为何纷纷折戟？

ClockBench如何拷打AI？

ClockBench究竟包含什么？

结果出乎意料

留学生集体吐槽：夸克忘了我们

iPhone 17中国挑战：AI延迟与eSIM困境

AI时钟阅读挑战：顶尖模型为何纷纷折戟？

ClockBench如何拷打AI？

ClockBench究竟包含什么？

结果出乎意料

留学生集体吐槽：夸克忘了我们

iPhone 17中国挑战：AI延迟与eSIM困境

相关文章