这篇由中国团队主导的学术论文在海外社交平台彻底火了,仅用一个晚上阅读量便突破200万大关!这支由MIT归国博士组建的创业团队,联合全球24家顶尖科研机构,为AI如何赋能科学发现注入了一剂强心针。
近期,一篇由中国初创企业领衔、联合全球24所顶级高校发布的科研论文震动了AI界。该研究旨在建立一套衡量大语言模型(LLMs)在科学领域实战能力的评测体系,迅速在学术圈与创投圈引发热议。
当晚,Keras框架创始人François Chollet亲自转发该论文,并呼吁道:「我们需要全新的思维方式,来引导人工智能实现真正的科学创新。」
AI领域的知名KOL Alex Prompter对论文摘要进行了深度解读,随后NBA独行侠队老板Mark Cuban以及大量硅谷投资者、欧洲家族办公室和体育媒体纷纷跟帖讨论。仅一夜之间,该话题的累计曝光量已接近200万次。
值得关注的是,OpenAI也几乎在同一时间发布了关于AI科学发现能力的评测概述《FrontierScience》,同样指出现有的通用评测标准已无法有效评估AI在科学研究中的表现。
这种与国际巨头的“神同步”,反映了全球范围内对AI for Science底层能力评估的高度重视。那么,这份由中国团队牵头的工作究竟有何魔力?
当前,虽然各类大模型在GPQA、MMMU等传统考试题库中刷出高分,但在实际科研场景中——如解析复杂的核磁图谱、预测新材料合成路径时,模型往往表现得捉襟见肘。人们开始反思:考试得高分是否等同于具备科学发现的能力?
为了回答这一关键命题,由中国AI for Science新锐企业「深度原理Deep Principle」牵头,联合MIT、哈佛、斯坦福、牛津、剑桥等24所全球顶尖高校共同发布了《Evaluating LLMs in Scientific Discovery》论文。
论文首次推出了针对LLMs for Science的全面评测体系:SDE(Scientific Discovery Evaluation)。该体系涵盖生物、化学、材料、物理四大领域,全方位测试了GPT-5、Claude-4.5、DeepSeek-R1等模型在实际科研环节中的表现。
SDE的核心差异在于它将单纯的问答升级为「假设-实验-分析」的闭环场景。结果显示,顶级模型在SDE中的平均准确率仅为50%–70%,远低于在传统题库中的表现。而在更具挑战性的「SDE-Hard」任务中,最高得分甚至不足12%。
更令人警醒的是,大模型在科学领域的“暴力美学”似乎正在失效:GPT-5相比前代虽然算力大幅增加,但在SDE基准上的提升仅有3%-5%,这说明单纯增加参数规模无法“顺带”解决复杂的科学推理问题。目前的AI模型在科研实战中,水平甚至不及一名受过训练的本科生。
该论文的通讯作者段辰儒,是「深度原理Deep Principle」的创始人兼CTO。早在MIT攻读化学博士期间,他便获得了图灵奖得主Yoshua Bengio的支持,发起了AI for Science社区并举办了具有全球影响力的NeurIPS Workshop。
2024年初,段辰儒与MIT物理化学博士贾皓钧回国创业,共同创办了「深度原理」。这对“95后”博士组合在成立短短一年半内,便吸引了线性资本、高瓴创投、蚂蚁集团等机构的青睐,并与晶泰科技、深势科技等行业巨头达成了战略协作。
「深度原理」不仅活跃于学术前沿,更深入工业研发一线。他们将扩散生成模型(Diffusion Models)引入化学反应生成,并结合量子化学技术,致力于攻克新材料研发中的核心瓶颈。他们在Nature子刊和JACS等顶级期刊上频发重磅成果,不断刷新AI在材料路径生成等领域的纪录。
此次组织全球50多位大牛学者构建SDE评测体系,正是源于他们在工业一线积累的大量真实研发数据。这些实战经验转化为评测标准,形成了包括俄亥俄州立大学教授孙欢、普林斯顿教授王梦迪、IBM RXN之父Philippe Schwaller等顶尖学者组成的“科学梦之队”。
当《Evaluating LLMs in Scientific Discovery》正式发布时,通讯单位处清晰地标注着:深度原理,中国,杭州。
这意味着在通往科学超级智能的征途中,中国创业团队已经与OpenAI等硅谷巨头站在了同一条起跑线上。这场关于AI for Science的严肃探讨,正引领着LLMs从单纯的“内卷刷榜”,走向探索人类科学边界的星辰大海。
本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260332256.html