当前位置:首页 > 科技资讯 > 正文

AI赋能古代铭文研究:Aeneas引领历史研究新纪元

书写的力量塑造了人类历史。铭文,作为最早的书写形式之一,是窥探古代文明思想、语言和历史的宝贵窗口。

然而,传统的数字化手段局限于文本匹配,难以应对古代文献中复杂的推理与语境理解需求。

Google DeepMind、诺丁汉大学团队及其合作者在这一领域取得了突破性进展。他们开发的多模态生成式神经网络Aeneas,能够辅助对公元前7世纪至公元8世纪的拉丁铭文进行预测、断代、定位及解读。

相关研究成果以“Contextualizing ancient texts with generative neural networks”为题,发表在权威期刊Nature上。

AI赋能古代铭文研究:Aeneas引领历史研究新纪元 Aeneas 多模态生成式神经网络 古代铭文 历史研究 第1张

论文链接:https://www.nature.com/articles/s41586-025-09292-5

研究团队表示,多数历史学者认为Aeneas能够无缝融入现有研究流程,成为推动历史研究范式革新的有力工具。

埃克塞特大学的Charlotte Tupman在评论文章中指出,这类工具不仅限于古代史研究,还能扩展到更晚时期的铭文乃至其他语言。

Aeneas:AI助力穿越罗马帝国

铭文是探索古代世界的重要资料,每年约有1500条拉丁铭文被新发现,记录着从皇帝法令到奴隶墓志铭的多样信息,展现了跨越2000年与500万平方公里的帝国文化与语言生活。

然而,解读这些珍贵的铭文并非易事。随着时间的推移,铭文中的字母、词语乃至整段内容可能已经遗失。文本修复、地理归属与年代判断等任务,都依赖于专家学者将铭文置于更广阔的语言与历史背景中理解。这一过程既耗时又需要高度专业的知识。

为解决这一问题,研究团队推出了Aeneas——一个多模态模型,这是一种AI工具,在分析和预测铭文时,不仅能评估铭文物体的视觉特征,还能分析文本本身。

AI赋能古代铭文研究:Aeneas引领历史研究新纪元 Aeneas 多模态生成式神经网络 古代铭文 历史研究 第2张

Aeneas集成了上下文关联机制,能够为历史学家提供具有历史依据的文本和上下文铭文平行例证列表。它是首个能够生成任意长度古代文本修复结果的模型。

Aeneas的输入是铭文的图像及其文本转录。其高效的架构完全基于字符运作,避免了先前方法中基于单词级别的表示。至于铭文的语境化过程,Aeneas会从其训练语料库(LED)中检索出与输入文本最相关的铭文平行例证列表。这一过程依赖于丰富的嵌入式数据,用以捕捉文本中的历史与语言模式。

Aeneas在另一方面超越了先前的工作,该工具可为未知长度的缺失文本提供修复建议。这一能力对于研究严重受损的铭文尤为重要。

AI赋能古代铭文研究:Aeneas引领历史研究新纪元 Aeneas 多模态生成式神经网络 古代铭文 历史研究 第3张

研究团队构建了一个覆盖广泛的拉丁铭文学数据集来训练Aeneas模型,包括EDR、EDH和EDCS_ETL。他们开发了一套复杂的处理流程来标准化元数据,利用唯一的Trismegistos标识符,消除歧义并处理文本。

Aeneas的实际表现如何?

为测试Aeneas在实际历史研究中的应用效果,团队组织了一项大规模的人机协作实验“古代历史学家与AI”。研究邀请了23名具备铭文学专业知识的参与者,在设定的时间限制内,与Aeneas展开互动。

历史学者在90%的案例中认为Aeneas所检索的平行文本是有价值的研究起点。在人机协同下,文本修复与地理归属任务的表现优于单独由人类或人工智能完成的结果。在断代任务中,Aeneas达到了与真实年代范围平均相差13年的精度。

AI赋能古代铭文研究:Aeneas引领历史研究新纪元 Aeneas 多模态生成式神经网络 古代铭文 历史研究 第4张

Aeneas展示了人工智能在推进历史研究方面的变革潜力,未来有多个方向值得进一步探索。

AI正在扩展人类认知

Aenea代表了AI在古代文本研究中的一次重大飞跃。其架构超越了此前的SOTA模型,具备多模态能力,能够恢复未知长度的文本序列,并可适配任何古代语言及书写媒介。

这些特性凸显了它在以下方面的潜力:扩充具有文本和上下文对应关系的数据集、为缺失值提供假设以及作为模块化组件用于增强基于对话的语言模型。