当前位置:首页 > 科技资讯 > 正文

谷歌AI突破:解决AI领域古老难题,手写识别与符号推理并进

11月12日最新消息,一篇题为《谷歌是否悄然解决了人工智能领域最古老的两个难题?》的文章在人工智能圈内迅速传播。

作者马克·汉弗莱斯,加拿大滑铁卢劳里埃大学历史学副教授,这位研究20世纪北美史的学者近年来转向数字人文与人工智能应用研究。他在Substack平台的专栏《Generative History》中透露,他在谷歌AI Studio中试验的一款神秘模型,展现了“几乎完美”的手写识别能力,以及“自发的、抽象的、符号化推理”现象。

谷歌AI突破:解决AI领域古老难题,手写识别与符号推理并进 谷歌AI 手写识别 符号推理 AI Studio 第1张

注:AI Studio界面显示A/B测试

谷歌的AI Studio是一个开放实验平台,用户可在其中测试提示词、比较模型表现。最近一周,部分用户发现系统会随机生成两份答案,要求他们选择较优者。这是大型AI实验室在模型上线前常用的A/B测试方式。由此,外界推测这款正在试验的模型可能是即将发布的Gemini-3。

汉弗莱斯的实验原本旨在验证这款模型在“手写历史文档转录”任务上的表现,却意外观察到更深层的现象:模型不仅在转录精度上达到专家人类的水准,还能在面对模糊或不完整信息时,自行推理、纠正与解释,仿佛它在“理解”历史材料,而不仅仅在识别文字。

他写道:“我原以为AI在历史文档领域的突破还需数年,但这一模型展示的能力已接近真正的人类专家,甚至在逻辑判断与语境还原上超出预期。”

若这些结果被证实,这将标志着AI历史上的一个关键时刻:机器不仅能“看懂”手写符号,还能像学者一样“思考”其背后的逻辑。这意味着AI可能已同时跨越人工智能研究中两个最古老的难题——手写文本识别与符号推理。

01.从“预测机器”到“理解者”

手写文本识别(Handwritten Text Recognition, HTR)是AI研究史上最早的课题之一。早在上世纪40年代,研究者便尝试让计算机识别人类笔迹。1966年,IBM发布IBM 1287机器,它能读取数字和部分拉丁字母,被视为AI手写识别的开端。几十年来,研究者不断改进算法与视觉模型,却始终受限于一个难题:机器只能识别模式,无法理解语义。

谷歌AI突破:解决AI领域古老难题,手写识别与符号推理并进 谷歌AI 手写识别 符号推理 AI Studio 第2张

注:识别历史文稿

汉弗莱斯指出,识别历史文稿比普通文本复杂得多。因为这不仅是视觉问题,更是语言与文化理解的难题。18、19世纪的手稿充满拼写混乱、语法不统一、符号含糊与语义歧义。理解这些内容需要同时调动语言学、历史背景、社会常识与逻辑推理。

他解释说:“人们以为古文档的难点在笔迹辨认,其实真正的挑战在于推断作者意图——那是视觉识别与逻辑推理的结合。”

在他的研究中,手写识别成为测试LLM(大语言模型)能力极限的理想场景。因为它要求模型将感知(Vision)与语言(Language)、世界知识(World Knowledge)与逻辑(Reasoning)整合到同一任务中。如果模型能在这种复杂任务中实现突破,就可能预示着更广泛的智能能力的涌现。

谷歌AI突破:解决AI领域古老难题,手写识别与符号推理并进 谷歌AI 手写识别 符号推理 AI Studio 第3张

注:Transkribus、人类和谷歌模型在手写文本识别 (HTR) 上的性能随时间演变

从GPT-4到Gemini-2.5-Pro,AI在HTR领域的准确率持续提升。2024年底,Gemini-2.5-Pro已能在复杂手稿上实现4%的字符错误率(CER)与11%的词错误率(WER),已达到专业人工水准。而汉弗莱斯此次测试的新模型则进一步将CER降至0.56%,WER降至1.22%——这意味着每200个字符仅错1个字母或标点。

他指出,这种跨代提升高度符合“规模法则”:模型参数规模每扩大一个数量级,其在复杂任务上的能力提升呈可预测的指数级增长。若规律持续成立,模型或许能自动跨越过去被视为“人类独有”的逻辑推理边界。