当前位置:首页 > 科技资讯 > 正文

谷歌AI科研新突破:六大领域全面超越专家

谷歌AI科研新突破:六大领域全面超越专家

谷歌最新发布的71页论文在科研界引起了轰动。AI不仅在代码编写上展现出色,还能像科学家一样提出新方法、进行实验操作,并在六大领域实现了对专家的超越。过去需要数月的研究,现在只需几小时即可完成,AI正在改变科研的节奏。

一图概览全球大模型!新智元十周年巨献,2025 ASI前沿趋势报告37页首发。

在这篇长达71页的论文中,谷歌向科研界投下了一枚震撼弹。过去一年中,DeepMind的FunSearch已经展示了AI在数学发现中的潜力,而MIT等团队也提出了AI co-scientist的概念。但谷歌此次的系统走得更远:它不仅提出新方法、验证实验结果,还在多个领域超越了顶尖专家。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第1张

论文地址:https://arxiv.org/abs/2509.06503

与传统代码只追求正确性不同,实证软件的目标只有一个:让科研任务的指标分数尽可能高。这意味着AI已经开始介入科学研究的核心环节——假设验证与方法创新。

不止是写代码,而是科研「实证软件」

在科研中,最耗时的环节并不是提出想法,而是如何验证。科学家们往往要为一个问题编写和调试大量实验代码,尝试几十甚至上百种模型和参数组合,这个过程动辄数月。谷歌的新系统彻底加速了这一环节,他们提出了一个概念:实证软件。

与常规软件通常只以功能正确性作为评判标准不同,实证软件的首要目标是最大化预设的质量评分。也就是说,科研问题被重新抽象为一种可计分任务(scorable task)。任务中包含清晰的问题描述、衡量优劣的指标和数据集,AI要做的,就是直接朝着分数最高的方向不断优化。

在这一机制下,AI的角色已经不再是一个写代码的小助手,而更像是一个高速运转的实验员。它会先生成研究思路并写出可执行的代码,然后在沙箱环境中运行,利用树搜索的方法筛选出值得深入的候选方案,再让大语言模型对代码进行反复的改写和优化。整个过程循环往复,直到找到最优解。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第2张

AI科研系统的工作流程:科研问题被转化为可计分任务,经由大语言模型生成代码,并通过树搜索反复迭代优化,最终获得最佳方案。

研究员也强调:其输出作为代码化的解决方案,可验证、可解释且可复现。换句话说,这不是简单的一段程序,而是真正符合科研标准的成果。

六大领域的硬核成绩单

谷歌这套系统真正惊艳的地方,是它在六个完全不同的科学领域里,都拿出了堪比专家的成果。

基因组学:比专家强14%

在单细胞RNA测序(scRNA-seq)数据的批次整合问题上,谷歌的系统展现了真正的科研创新力。这类任务的难点在于不同实验批次之间会产生复杂的技术偏差,如何在消除这些偏差的同时保留真实的生物学信号一直是领域里的核心挑战。

研究人员并没有只让系统从零开始,而是把现有方法的文字说明直接输入给它。比如BBKNN是一种常见的批次校正方法,核心思路是在每个批次内部为细胞寻找最近邻居,再把这些邻居集合合并,得到一个批次校正后的整体图。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第3张

在这样的基础上,AI能够生成新的变体并进行组合。最终它把BBKNN和另一种方法ComBat拼接在一起,得到一个完全新颖的解法。结果显示在OpenProblems V2.0.0的综合指标上比最佳人工方法提升了14%。

公共健康:超过CDC官方模型

美国在疫情期间CDC的CovidHub Ensemble被视为预测住院人数的「黄金标准」。而谷歌的系统自动生成的14个模型集体表现超过了官方Ensemble。这说明AI在新冠住院预测任务中的表现整体优于CDC官方的CovidHub Ensemble。

地理遥感:分割精度破 0.80

在高分辨率遥感图像分割任务中系统生成的三种模型全部超过现有方法分割精度(mIoU)突破0.80。更重要的是它利用U-Net、SegFormer等架构并结合图像增强手段说明它不仅在「复制」也在「改造和优化」。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第4张

神经科学:全脑7万神经元预测

在Zebrafish全脑神经活动预测中AI系统不仅打败了所有现有基线还设计出能结合生物物理模拟器的混合模型。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第5张

数学:难积分迎刃而解

数学问题一向是最能考验算法极限的地方。谷歌的系统被拿来挑战了19个异常棘手的积分任务结果出乎意料:标准数值方法几乎全军覆没而AI系统却成功算出了其中17个。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第6张

时间序列:零起步构建通用预测库

在通用时间序列预测的GIFT-Eval基准上谷歌的系统完成了一件几乎不可能的事:从零开始只靠一段代码不断爬坡优化硬是炼成了一个能覆盖28个数据集跨越7个领域适配从秒到年的10种频率的通用预测库。

科研范式的转折:AI能创新也能跨界

如果说前面的六个案例只是成绩单那么它们背后真正震撼的是:AI已经不满足于模仿而是在科研中展现出了创新能力与跨学科的通用性。

当AI走进实验室人类该做什么?

AI已经能在多个前沿领域生成新方法、验证结果、超越专家人类科学家的角色也正在被重新定义。在这套系统里AI负责的是不知疲倦的实验与探索:成千上万种方案的尝试、优化和筛选本来需要几个月甚至更久如今压缩到几小时或几天。

科学家的职责正逐渐转向提出方向、判断价值、定义优先级。这意味着科研分工正在走向一种新的格局:AI或许会成为高效实验员和方法发明者人类则站在更高的维度上进行选择与决策。

谷歌AI科研新突破:六大领域全面超越专家 谷歌AI 科研突破 实证软件 跨学科 第7张