在信息流中,你或许曾瞥见过类似极具煽动性的标题:「AI独立攻克了困扰人类半个世纪的数学难题!数学家即将失业!」
对于那些期盼AGI早日降临的人而言,这无疑是又一剂兴奋剂;而对于捍卫人类智慧最后阵地的数学家来说,这却像是堡垒即将失守的警钟。
随着这类报道的影响力持续扩散,终于有人按捺不住,出面为这股热潮降温。
颇具讽刺意味的是,这位泼冷水的人,恰恰是AI数学研究领域最积极的倡导者之一——陶哲轩。
陶哲轩并非全盘否定AI在数学研究上的潜力,他只是希望将公众的期待拉回到一个更现实的刻度上。
就在今日凌晨,陶哲轩在社交平台上发文指出,关于AI解决数学难题的能力,存在严重的断章取义和夸大其词。
他进一步在Erdős Problems项目相关的GitHub仓库中,添加了更为系统性的说明和警示。
陶哲轩强调,外界在解读AI解决Erdős问题的成果时,极易走向过度解读,尤其是将个别孤立案例当作「AI已掌握高等数学思维」的力证。
那么,陶哲轩究竟想澄清什么?AI在Erdős问题上的实际表现到底如何?
首先需要明确,陶哲轩并非否定AI在数学领域取得的进步。
他所反驳的,是一种过于简化的叙事逻辑:将「AI能在某些特定问题上给出可验证的解答」,直接等同于「AI已经学会数学、能够独立思考创新、甚至可以取代人类数学家」。
在他最新更新的「AI contributions to Erdős problems」页面中,陶哲轩提醒道,审视AI在Erdős问题上的成绩单时,切忌只关注「解决了多少题目」,更需留意以下几个维度:
题目难度天差地别,「解题数量」无法简单类比:Erdős问题的难度跨度极大,一端是公认的顶级核心难题,另一端则是大量长期被忽视、研究甚少的「长尾问题」。这些长尾问题中,不少属于「低垂的果实」,恰好是当前AI工具擅长处理的类型。问题在于,若无深入的文献调研,很难事先判断一道题属于哪一类别。因此,单纯比较「谁解出的题目多」,很可能是在拿不同难度级别的问题进行不公平对比。
许多题目的「未解」状态本身存疑:网站上大量问题缺乏系统的文献梳理,因此「Open」(未解决)的标签常常只是暂时的假设。当AI宣称解决一道题后,人们常常会迅速发现——其实在过往文献中早已有人给出过解答(尽管方法可能略有差异)。这使得「AI首次攻克」的宣传极易被推翻。
公众看到的往往是成功案例,失败的尝试被掩盖了:该网站对AI工具的贡献记录并不全面,尤其是对于那些没有进展或失败的尝试,记录少之又少。
部分题目原始表述存在瑕疵,可能被「钻字面空子」解决:在极个别案例中,Erdős提出的问题表述可能不够严谨甚至存在错误,若要准确理解原意,往往需要结合上下文和领域知识进行判断——这一过程带有主观色彩。
数学的真正价值不止于答案,更在于「知识网络的连接」:数学研究的意义,不仅仅在于证明一个命题成立,更在于这一结果对相关领域有何启发?如何与现有理论体系衔接?提供了哪些可迁移的方法?人类在撰写证明时,通常会自然融入这些背景信息:研究动机、文献对比、方法的适用范围等。然而,AI生成的证明往往缺乏这种知识的光晕,尽管在技术上可能正确,但对数学共同体的实际价值却大打折扣。
攻克冷门长尾问题,不等于达到顶级期刊发表标准:并非每解决一个未解问题,就等同于具备发表论文的资格。尤其是当问题本身较为冷门,且解决方法仅是对现有技巧的微小调整时,往往难以进入高水平期刊的视野。
将AI生成的证明形式化到Lean等证明助手中,确实是提升可信度的有效手段,但依然存在被钻空子的可能。例如,在形式化过程中可能偷偷引入额外公理、问题陈述被错误地形式化、或者利用数学库/语法中的某些「边缘行为」。尤其是当形式化证明异常简短或过分冗长时,更需要保持警惕。
总而言之,陶哲轩认为AI在Erdős问题上的进展确实值得关注,但评判的标准应当更加多元化,包括题目的难度层级、文献核查的完整性、题意还原的准确性、知识融入的深度,以及验证链条的可靠性等多维指标。
AI能够产出成果,并不意味着AI已经具备了完整的数学思维能力。
那么在实际中,AI究竟扮演了什么角色?
陶哲轩的GitHub页面将AI的贡献划分为多个类别。
包括AI生成完整或部分解答;AI误以为题目未解而后来发现文献早有记载的案例;AI协助进行文献检索;AI将证明形式化到Lean证明助手;AI帮助人类重写既有论证等等。
例如,页面记录显示,#728问题于2026年1月6日由Aristotle与ChatGPT 5.2 Pro合作给出完整解答(已通过Lean验证),#729问题则在1月8日至10日期间同样获得完整解答(Lean验证)。
这表明,在特定题型和难度范围内,AI确实能够生成「可执行的证明结构」,甚至进入形式化验证的流程。
还有一些问题,虽然由AI独立解决,但事后核查发现,此前已有研究者给出了解答。
陶哲轩还特别列出了「AI驱动的文献回顾」类别:利用AI搜索是否存在已有结果、是否存在误判Open状态的情况。
倘若仅凭几个孤立案例就断言「AI数学无敌」,显然失之偏颇。
但反过来,若认为AI在数学上一无是处,同样会忽视其真正有价值的应用场景。
更准确的说法或许是:AI正在逐步承担起数学研究中的体力和工程性工作:执行常规套路、填补证明漏洞、进行形式化验证、撰写和修改文稿、检索文献等。
而数学真正的「灵魂」——提出深刻的问题、创造全新的概念、将一个结果嵌入整个学科的知识网络——依然高度依赖于人类智慧。
陶哲轩此番深夜发帖的核心要义,正在于此。
未来的数学家,或许将不再是孤独的思想者,而是率领着硅基智能大军的统帅:在广袤的数学疆域中,人类负责指明方向,AI则负责开辟道路、架设桥梁。
切勿断章取义地神化AI,但也绝不可低估这股正在重塑人类探索真理方式的力量。
参考资料:https://mathstodon.xyz/@tao/115871649394962391
本文由主机测评网于2026-03-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260331901.html