当前位置：首页 > 科技资讯 > 正文

谷歌AI突破：解决AI领域古老难题，手写识别与符号推理并进

主机测评网
科技资讯
2026-05-11
844

11月12日最新消息，一篇题为《谷歌是否悄然解决了人工智能领域最古老的两个难题？》的文章在人工智能圈内迅速传播。

作者马克·汉弗莱斯，加拿大滑铁卢劳里埃大学历史学副教授，这位研究20世纪北美史的学者近年来转向数字人文与人工智能应用研究。他在Substack平台的专栏《Generative History》中透露，他在谷歌AI Studio中试验的一款神秘模型，展现了“几乎完美”的手写识别能力，以及“自发的、抽象的、符号化推理”现象。

谷歌AI突破：解决AI领域古老难题，手写识别与符号推理并进谷歌AI 手写识别符号推理 AI Studio 第1张

注：AI Studio界面显示A/B测试

谷歌的AI Studio是一个开放实验平台，用户可在其中测试提示词、比较模型表现。最近一周，部分用户发现系统会随机生成两份答案，要求他们选择较优者。这是大型AI实验室在模型上线前常用的A/B测试方式。由此，外界推测这款正在试验的模型可能是即将发布的Gemini-3。

汉弗莱斯的实验原本旨在验证这款模型在“手写历史文档转录”任务上的表现，却意外观察到更深层的现象：模型不仅在转录精度上达到专家人类的水准，还能在面对模糊或不完整信息时，自行推理、纠正与解释，仿佛它在“理解”历史材料，而不仅仅在识别文字。

他写道：“我原以为AI在历史文档领域的突破还需数年，但这一模型展示的能力已接近真正的人类专家，甚至在逻辑判断与语境还原上超出预期。”

若这些结果被证实，这将标志着AI历史上的一个关键时刻：机器不仅能“看懂”手写符号，还能像学者一样“思考”其背后的逻辑。这意味着AI可能已同时跨越人工智能研究中两个最古老的难题——手写文本识别与符号推理。

01.从“预测机器”到“理解者”

手写文本识别（Handwritten Text Recognition, HTR）是AI研究史上最早的课题之一。早在上世纪40年代，研究者便尝试让计算机识别人类笔迹。1966年，IBM发布IBM 1287机器，它能读取数字和部分拉丁字母，被视为AI手写识别的开端。几十年来，研究者不断改进算法与视觉模型，却始终受限于一个难题：机器只能识别模式，无法理解语义。

谷歌AI突破：解决AI领域古老难题，手写识别与符号推理并进谷歌AI 手写识别符号推理 AI Studio 第2张

注：识别历史文稿

汉弗莱斯指出，识别历史文稿比普通文本复杂得多。因为这不仅是视觉问题，更是语言与文化理解的难题。18、19世纪的手稿充满拼写混乱、语法不统一、符号含糊与语义歧义。理解这些内容需要同时调动语言学、历史背景、社会常识与逻辑推理。

他解释说：“人们以为古文档的难点在笔迹辨认，其实真正的挑战在于推断作者意图——那是视觉识别与逻辑推理的结合。”

在他的研究中，手写识别成为测试LLM（大语言模型）能力极限的理想场景。因为它要求模型将感知（Vision）与语言（Language）、世界知识（World Knowledge）与逻辑（Reasoning）整合到同一任务中。如果模型能在这种复杂任务中实现突破，就可能预示着更广泛的智能能力的涌现。

谷歌AI突破：解决AI领域古老难题，手写识别与符号推理并进谷歌AI 手写识别符号推理 AI Studio 第3张

注：Transkribus、人类和谷歌模型在手写文本识别 (HTR) 上的性能随时间演变

从GPT-4到Gemini-2.5-Pro，AI在HTR领域的准确率持续提升。2024年底，Gemini-2.5-Pro已能在复杂手稿上实现4%的字符错误率（CER）与11%的词错误率（WER），已达到专业人工水准。而汉弗莱斯此次测试的新模型则进一步将CER降至0.56%，WER降至1.22%——这意味着每200个字符仅错1个字母或标点。

他指出，这种跨代提升高度符合“规模法则”：模型参数规模每扩大一个数量级，其在复杂任务上的能力提升呈可预测的指数级增长。若规律持续成立，模型或许能自动跨越过去被视为“人类独有”的逻辑推理边界。