当前位置:首页 > 科技资讯 > 正文

谷歌AI突破:解析百年“天书”账本,展现惊人推理能力

最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的“天书”账本,还纠正了其中的格式错误和模糊表述,展现了惊人的推理能力,令历史学家震惊。

谷歌已悄然解决了AI界的两大古老难题?

不久前,谷歌AI Studio的神秘模型引起了网友关注,包括一位叫Mark Humphries的历史学家。

他拿出了200多年前一位奥尔巴尼商人的“天书”账本,测试大模型在手写文本识别(HTR)上的能力。

谷歌AI突破:解析百年“天书”账本,展现惊人推理能力 谷歌AI 手写文本识别 历史文献 推理能力 第1张

令人震惊的是,神秘模型不仅在自动手写识别上接近满分,还纠正了原账本中的一个书写格式错误,优化了其中一个可能引发歧义的模糊表述。

这意味着该模型不仅能识别字母,还能理解字母背后的逻辑和知识背景。

而且,这些能力都是在模型未被提示的情况下展现出来的。

专家级的手写文字识别能力,无需显式规则的推理能力,这两大难题的解决标志着AI模型能力上的一次跃迁。

网友推测,这个神秘模型可能就是谷歌即将在今年推出的Gemini-3,但尚未官方确认。

破解历史学家难题

Mark Humphries是Wilfrid Laurier大学的一位历史学教授。

作为一名历史学家,他十分关心AI在自己的专业领域是否已经达到了人类专家级的推理水平。

因此,Humphries选择了让大模型来识别历史手写体,他认为这是检验大模型整体能力的一个黄金测试。

识别历史手写体,不仅是一个视觉任务,还要对历史手稿所在的历史背景有一定的了解。

如果缺乏这些知识,要准确识别和转写一份历史文献几乎是不可能的。

在Humphries看来,这恰恰也是历史文献中最难识别的部分。

随着大模型能力的发展,它们在HTR上的识别准确率可以超过90%,但剩下的10%才是最难、最关键的。

预测式架构是否存在“天花板”?

为了衡量手写转写准确性,Humphries与Lianne Leddy博士专门做了一个测试集,这是一个包含50份文档、总计约1万词的集合。

他们采取了一切合理的预防措施,尽可能确保这些文档不在大模型的训练数据里。

研究显示,非专业人士通常WER在4-10%。

谷歌AI突破:解析百年“天书”账本,展现惊人推理能力 谷歌AI 手写文本识别 历史文献 推理能力 第2张

去年,在Humphries等人的测试集上,Gemini-2.5-Pro的表现为:严格CER为4%,WER为11%。

当排除大小写和标点的错误时,这些错误率降到了CER 2%和WER 4%。

新模型的表现

在同样的数据集下,他们开始测试Google的新模型。

具体做法是上传图片到AI Studio,并输入固定提示词。

最终,该模型转写的5份文档(总计刚过1000词),严格CER为1.7%,WER为6.5%。

谷歌AI突破:解析百年“天书”账本,展现惊人推理能力 谷歌AI 手写文本识别 历史文献 推理能力 第3张

秒破200多年前账本“谜团”

随后,Humphries决定继续给新模型上强度。

他拿出了200多年前一位奥尔巴尼商人的日记账。

谷歌AI突破:解析百年“天书”账本,展现惊人推理能力 谷歌AI 手写文本识别 历史文献 推理能力 第4张