当前位置:首页 > 科技资讯 > 正文

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险

谷歌DeepMind再次重磅出击,联合全球五大顶级研究机构,以人工智能之力直指数学领域核心难题!与此同时,著名数学家陶哲轩也发出冷静警示:必须警惕AI技术滥用可能带来的潜在风险。

近日,谷歌DeepMind正式发起了一项名为「AI赋能数学计划」的重大倡议,该计划汇聚了全球范围内五家顶尖的学术机构。

这些合作方将利用谷歌最先进的数学人工智能技术,共同探索和开拓科学研究的新疆域。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第1张

参与该计划的AI工具阵容强大,包括曾在国际数学奥林匹克竞赛(IMO)中夺得金牌的Gemini Deep Think模型,专注于算法发现的AI智能体AlphaEvolve,以及能够自动补全形式化证明的AlphaProof系统。

目前,首批公布的合作伙伴阵容堪称豪华,具体包括:

伦敦帝国学院

普林斯顿高等研究院(IAS)

法国高等科学研究所(IHES)

西蒙斯计算理论研究所(隶属于加州大学伯克利分校)

塔塔基础科学研究所(TIFR)

这五大机构肩负着一个共同的使命:识别并攻克那些有望借助人工智能获得突破性见解的数学难题,从而加速整个科学发现的进程。

然而,陶哲轩对此表达了他的关切:「随着AI在数学研究中的应用日益深入,除了负责任的使用案例,AI滥用的现象也时有发生」。

因此他认为,现在是时候发起一场关于如何最佳地融入AI工具、如何透明地披露其贡献、并如何缓解相关风险的广泛讨论了。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第2张

或许,这不仅能够守护数学研究的严谨性与纯洁性,还将为人工智能与数学的深度融合铺平道路。

五大顶尖机构联手,强攻前沿数学难题

数学,被视作描述宇宙最基础的语言。

在谷歌DeepMind的愿景中,人工智能可以作为一种强大的协作工具,激发数学家的创造力,与之共同探索。

「AI赋能数学计划」的创立,旨在实现以下目标:

发掘新一代有望通过人工智能获得深刻洞察的数学难题;

构建支持此类前沿探索所需的基础设施与软件工具;

最终推动科学发现步伐的全面加速。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第3张

此项计划将获得Google.org的资金支持,以及谷歌DeepMind顶尖的技术资源投入。

近几个月来,谷歌DeepMind自身在相关领域的研究取得了飞速进展。

2024年,其开发的AlphaGeometry和AlphaProof系统在国际数学奥林匹克竞赛中,成功斩获了银牌成绩。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第4张

而搭载了Deep Think模块的最新版Gemini模型,更是在今年的IMO竞赛中展现了金牌水准,完美解答了五道题目,获得了35分的高分。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第5张

今年五月,谷歌DeepMind发布了AlphaEvolve,这被认为是最强的通用人工智能智能体之一。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第6张

在数学分析、几何学、组合数学和数论领域的50个公开难题上,AlphaEvolve在20%的题目中找到了当前最优的解决方案。

尤为值得一提的是,在数学与算法发现领域,它甚至发明了一种全新的、计算效率更高的矩阵乘法方法。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第7张

具体而言,在4x4矩阵乘法这一特定计算问题上,它发现了仅需48次标量乘法的算法。

这一成果,打破了自1969年由Strassen算法创下并保持了长达50年的历史纪录。

此外,在计算机科学领域,AlphaEvolve还协助研究人员发现了全新的数学结构。

同时,它也揭示出某些复杂问题的求解难度实际上比以往认知的更高,这让研究者对计算能力的边界有了更清晰、更精准的把握,为未来的研究方向提供了重要指引。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第8张

以上这些进展,都是当前人工智能模型飞速发展的有力证明。

对于AI的全部潜力,以及它如何协助人类思考最深奥的科学问题,我们的理解才刚刚开始。

人工智能与数学融合的边界何在?

一直以来,陶哲轩都是「AI+数学」领域应用的积极倡导者和卓越实践者。

他曾多次联手GPT-5 Pro等顶尖人工智能模型,成功破解了数学领域的多个难题,显著提升了研究效率。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第9张

毋庸置疑,在数学研究领域,大语言模型和证明助手等AI工具,正在悄然改变传统的研究范式。

近期,一些顶尖学术论文已经开始融合人工智能的贡献,推动了从形式化证明到复杂计算的多方面创新。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第10张

论文地址:https://borisalexeev.com/pdf/erdos707.pdf

然而,随着人工智能深度介入学术研究,一个关键问题也随之浮现:

如何确保这些工具的使用,不会损害学术论文的严谨性、可信度与核心价值?

陶哲轩提出规范性建议

借此机会,陶哲轩在公开平台上发起了一场重要讨论。在一篇长文中,他系统地提出了三大核心建议。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第11张

下文中的“AI”一词,不仅涵盖大语言模型,也包括神经网络、可满足性求解器、证明助手以及其他任何复杂的计算工具。

1. AI使用声明

在论文中,所有对人工智能的实质性使用(即超出其基础辅助功能,如自动补全、拼写检查或搜索引擎的AI摘要),都必须予以明确声明。

2. AI风险讨论与缓解措施

论文中应讨论所使用AI工具可能带来的一般性风险,并详细说明为缓解这些风险已采取的具体措施。以下举例说明:

2.1. 内容虚构或“幻觉”风险:AI可能会编造参考文献、证明过程或文本内容,导致事实性错误。建议避免在论文正文中直接使用AI生成的文本;若必须引用AI输出,则需使用不同字体或清晰标记进行标注。

2.2. 缺乏可复现性:专有AI系统或高计算成本生成的结果可能难以被他人复现。解决方案是开源相关的提示词、完整工作流程、经过认证的数据集等,使他人能够以较低成本进行验证。

2.3. 缺乏可解释性:AI的输出往往晦涩难懂,其提供的解释也可能缺乏坚实的逻辑基础。建议为每一个重要的AI输出,配以一份由人类撰写、具备高可读性的对应说明。例如,一个定理可以同时包含一个易于阅读的非形式化证明(人类撰写)和一个严格但不易读的形式化证明(AI生成)。

2.4. 缺乏可验证性:AI生成的证明中容易隐藏细微错误,人工检查耗时费力。采用形式化验证或一致性检查有助于缓解这一问题,并推荐采用多层次验证方法。关键是在已验证部分添加“校验标记”,对于未经验证的部分则需明确说明其状态。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第12张

2.5. 目标形式化不当:AI可能精确地解决了“错误定位”的目标,即经过形式化转换后的命题可能偏离了作者的真实意图。为此,应从独立来源获取形式化目标,或由人类研究者深入审视整个形式化过程。

2.6. 可能利用漏洞达成目标:与上一问题相关,AI可能会钻形式化表述的空子,例如通过添加任意公理来“证明”某个命题。应对方法是列出已知的形式化漏洞,并讨论所采用的排除机制以确保过程的严谨性。

2.7. AI生成代码存在缺陷:AI生成的代码可能包含更加隐蔽的Bug,难以用传统方法检测和修复。为此,建议采用大量单元测试、外部独立验证,或将AI的使用限制在简单场景,复杂任务仍需人类进行修改和适配。

3. 责任归属

最终,论文的所有作者必须为AI贡献的任何内容承担全部责任,包括其中可能存在的不准确、疏漏或虚假陈述。除非相关内容被明确标记为“未经核实”,否则作者不能推卸责任。

陶哲轩强调,以上建议仅是抛砖引玉,他希望引发更广泛的讨论,与全球研究人员共同完善这份实践清单。

在其讨论帖下方,研究者John Dvorak指出了一个核心痛点——

除非我们能跨越一个临界点,让所有数学证明都使用Lean等工具进行形式化验证,并使之成为学术界的标准配置,否则这个问题基本无法根除。在Lean普及之前,现有的方法虽然有用,但可能只是治标不治本。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第13张

对此,陶哲轩分享了他最近观察到的一个观点:使用AI进行辅助审稿在质量上是可以接受的,但它不应成为主要的论文筛选工具之一。否则就可能触发“古德哈特定律”(Goodhart"s law),即AI工具会寻找并利用评估系统的漏洞,例如使用一些异常、超出常规分布的文本字符串就能绕开审核机制。简而言之,AI评估器最多只能作为人类审核者的辅助工具,而不能完全取代人类评估者的核心判断角色。

谷歌DeepMind携手五大顶尖机构启动AI数学计划,陶哲轩呼吁规范使用以防风险 人工智能  数学研究 谷歌DeepMind 陶哲轩 第14张

参考资料:

https://blog.google/technology/google-deepmind/ai-for-math/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

https://ai-math.zulipchat.com/#narrow/channel/539992-Web-public-channel---AI-Math/topic/Best.20practices.20for.20incorporating.20AI.20etc.2E.20in.20papers/near/546518354