领衔全球24所名校，中国95后MIT博士团队发布SDE评测体系，揭示AI助力科学发现的真实水平

这篇由中国团队主导的学术论文在海外社交平台彻底火了，仅用一个晚上阅读量便突破200万大关！这支由MIT归国博士组建的创业团队，联合全球24家顶尖科研机构，为AI如何赋能科学发现注入了一剂强心针。

近期，一篇由中国初创企业领衔、联合全球24所顶级高校发布的科研论文震动了AI界。该研究旨在建立一套衡量大语言模型（LLMs）在科学领域实战能力的评测体系，迅速在学术圈与创投圈引发热议。

当晚，Keras框架创始人François Chollet亲自转发该论文，并呼吁道：「我们需要全新的思维方式，来引导人工智能实现真正的科学创新。」

领衔全球24所名校，中国95后MIT博士团队发布SDE评测体系，揭示AI助力科学发现的真实水平 AI for Science SDE评测基准深度原理科学大语言模型第1张

AI领域的知名KOL Alex Prompter对论文摘要进行了深度解读，随后NBA独行侠队老板Mark Cuban以及大量硅谷投资者、欧洲家族办公室和体育媒体纷纷跟帖讨论。仅一夜之间，该话题的累计曝光量已接近200万次。

领衔全球24所名校，中国95后MIT博士团队发布SDE评测体系，揭示AI助力科学发现的真实水平 AI for Science SDE评测基准深度原理科学大语言模型第2张

值得关注的是，OpenAI也几乎在同一时间发布了关于AI科学发现能力的评测概述《FrontierScience》，同样指出现有的通用评测标准已无法有效评估AI在科学研究中的表现。

领衔全球24所名校，中国95后MIT博士团队发布SDE评测体系，揭示AI助力科学发现的真实水平 AI for Science SDE评测基准深度原理科学大语言模型第3张

这种与国际巨头的“神同步”，反映了全球范围内对AI for Science底层能力评估的高度重视。那么，这份由中国团队牵头的工作究竟有何魔力？

AI离真正的科学发现还有多远？

当前，虽然各类大模型在GPQA、MMMU等传统考试题库中刷出高分，但在实际科研场景中——如解析复杂的核磁图谱、预测新材料合成路径时，模型往往表现得捉襟见肘。人们开始反思：考试得高分是否等同于具备科学发现的能力？

为了回答这一关键命题，由中国AI for Science新锐企业「深度原理Deep Principle」牵头，联合MIT、哈佛、斯坦福、牛津、剑桥等24所全球顶尖高校共同发布了《Evaluating LLMs in Scientific Discovery》论文。

论文首次推出了针对LLMs for Science的全面评测体系：SDE（Scientific Discovery Evaluation）。该体系涵盖生物、化学、材料、物理四大领域，全方位测试了GPT-5、Claude-4.5、DeepSeek-R1等模型在实际科研环节中的表现。

领衔全球24所名校，中国95后MIT博士团队发布SDE评测体系，揭示AI助力科学发现的真实水平 AI for Science SDE评测基准深度原理科学大语言模型第4张

SDE的核心差异在于它将单纯的问答升级为「假设-实验-分析」的闭环场景。结果显示，顶级模型在SDE中的平均准确率仅为50%–70%，远低于在传统题库中的表现。而在更具挑战性的「SDE-Hard」任务中，最高得分甚至不足12%。

更令人警醒的是，大模型在科学领域的“暴力美学”似乎正在失效：GPT-5相比前代虽然算力大幅增加，但在SDE基准上的提升仅有3%-5%，这说明单纯增加参数规模无法“顺带”解决复杂的科学推理问题。目前的AI模型在科研实战中，水平甚至不及一名受过训练的本科生。

该论文的通讯作者段辰儒，是「深度原理Deep Principle」的创始人兼CTO。早在MIT攻读化学博士期间，他便获得了图灵奖得主Yoshua Bengio的支持，发起了AI for Science社区并举办了具有全球影响力的NeurIPS Workshop。

2024年初，段辰儒与MIT物理化学博士贾皓钧回国创业，共同创办了「深度原理」。这对“95后”博士组合在成立短短一年半内，便吸引了线性资本、高瓴创投、蚂蚁集团等机构的青睐，并与晶泰科技、深势科技等行业巨头达成了战略协作。

「深度原理」不仅活跃于学术前沿，更深入工业研发一线。他们将扩散生成模型（Diffusion Models）引入化学反应生成，并结合量子化学技术，致力于攻克新材料研发中的核心瓶颈。他们在Nature子刊和JACS等顶级期刊上频发重磅成果，不断刷新AI在材料路径生成等领域的纪录。

此次组织全球50多位大牛学者构建SDE评测体系，正是源于他们在工业一线积累的大量真实研发数据。这些实战经验转化为评测标准，形成了包括俄亥俄州立大学教授孙欢、普林斯顿教授王梦迪、IBM RXN之父Philippe Schwaller等顶尖学者组成的“科学梦之队”。

当《Evaluating LLMs in Scientific Discovery》正式发布时，通讯单位处清晰地标注着：深度原理，中国，杭州。

这意味着在通往科学超级智能的征途中，中国创业团队已经与OpenAI等硅谷巨头站在了同一条起跑线上。这场关于AI for Science的严肃探讨，正引领着LLMs从单纯的“内卷刷榜”，走向探索人类科学边界的星辰大海。

本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：http://www.vpshk.cn/20260332256.html