最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的“天书”账本,还纠正了其中的格式错误和模糊表述,展现了惊人的推理能力,令历史学家震惊。
谷歌已悄然解决了AI界的两大古老难题?
不久前,谷歌AI Studio的神秘模型引起了网友关注,包括一位叫Mark Humphries的历史学家。
他拿出了200多年前一位奥尔巴尼商人的“天书”账本,测试大模型在手写文本识别(HTR)上的能力。
令人震惊的是,神秘模型不仅在自动手写识别上接近满分,还纠正了原账本中的一个书写格式错误,优化了其中一个可能引发歧义的模糊表述。
这意味着该模型不仅能识别字母,还能理解字母背后的逻辑和知识背景。
而且,这些能力都是在模型未被提示的情况下展现出来的。
专家级的手写文字识别能力,无需显式规则的推理能力,这两大难题的解决标志着AI模型能力上的一次跃迁。
网友推测,这个神秘模型可能就是谷歌即将在今年推出的Gemini-3,但尚未官方确认。
Mark Humphries是Wilfrid Laurier大学的一位历史学教授。
作为一名历史学家,他十分关心AI在自己的专业领域是否已经达到了人类专家级的推理水平。
因此,Humphries选择了让大模型来识别历史手写体,他认为这是检验大模型整体能力的一个黄金测试。
识别历史手写体,不仅是一个视觉任务,还要对历史手稿所在的历史背景有一定的了解。
如果缺乏这些知识,要准确识别和转写一份历史文献几乎是不可能的。
在Humphries看来,这恰恰也是历史文献中最难识别的部分。
随着大模型能力的发展,它们在HTR上的识别准确率可以超过90%,但剩下的10%才是最难、最关键的。
为了衡量手写转写准确性,Humphries与Lianne Leddy博士专门做了一个测试集,这是一个包含50份文档、总计约1万词的集合。
他们采取了一切合理的预防措施,尽可能确保这些文档不在大模型的训练数据里。
研究显示,非专业人士通常WER在4-10%。
去年,在Humphries等人的测试集上,Gemini-2.5-Pro的表现为:严格CER为4%,WER为11%。
当排除大小写和标点的错误时,这些错误率降到了CER 2%和WER 4%。
在同样的数据集下,他们开始测试Google的新模型。
具体做法是上传图片到AI Studio,并输入固定提示词。
最终,该模型转写的5份文档(总计刚过1000词),严格CER为1.7%,WER为6.5%。
随后,Humphries决定继续给新模型上强度。
他拿出了200多年前一位奥尔巴尼商人的日记账。
本文由主机测评网于2026-05-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544373.html