《Nature》大新闻:80亿参数小模型OpenScholar,终结「参数崇拜」时代!它摒弃死记硬背,凭借「检索+自查」策略,在科研综述任务上超越行业巨头。
最新一篇登陆《Nature》正刊的论文,公开了名为OpenScholar的模型,同时被Science报道。
仅8B参数的它,在科研文献综述任务中,击败了众多旗舰模型。
这是科研范式转变的信号:在严谨的科学探索中,全知全能的「黑盒」记忆已成过去,精准调用的「外挂」知识库才是未来。
以往,科研人员对通用大模型爱恨交织。
恨意主要源于其致命缺陷——幻觉。
数据显示,在回答生物医学等领域的专业问题时,AI伪造引用的比例一度高达90%。
它能自信地编造出不存在的论文标题、作者甚至页码。对于需要字斟句酌的科学研究,这种不可靠性是毁灭性的。
OpenScholar的推出,正是为了修正这一偏差。
由华盛顿大学和艾伦人工智能研究所(Ai2)主导开发的系统,不再试图让模型「记住」所有知识,而是教会模型如何像人类学者一样去「查资料」。
OpenScholar并不依赖参数中的模糊记忆,而是外接了一个包含4500万篇开放获取论文的巨型数据库。
当你提出问题时,它不会直接生成答案,而是执行一套严密的流程:
检索: 先在4500万篇文献中快速找到最相关的片段。
重排序: 利用交叉编码器对片段进行精细筛选,去伪存真。
生成与反馈: 最关键的一步。模型生成答案草稿后,会进行自我审查——「这句话有证据支持吗?」如果发现证据不足,它会发起第二轮、第三轮检索,直到每一条论述都有确凿的文献背书。
结果是显著的。在涵盖计算机科学、物理学等领域的ScholarQABench基准测试中,OpenScholar-8B的正确率不仅超越了当时的旗舰模型,更将推理成本降低了两个数量级(约0.003美元/次)。
它证明了在特定领域,一个带了「图书馆」的本科生,比一个赤手空拳却爱产生幻觉的博士生更可靠。
如果说OpenScholar解决的是「准确性」问题,那么素材中提及的后续迭代版本——DR Tulu(Deep Research Tulu),则是在向「深度」进军。
科研往往不是简单的一问一答,而是漫长的探索与综合。
2025年11月发布的DR Tulu,针对的是长篇幅、多维度的「深度研究」任务。
它的核心突破在于引入了「演化评分规则的强化学习」(RLER)。
以往训练中,AI很难判断一篇长达数千字的文献综述写得好不好。
DR Tulu并不依赖固定的评分标准,而是让模型在搜索和研究的过程中,动态生成针对当前问题的评分细则。
它既学习「什么是好的研究策略」(如挖掘冷门数据源),也学习「什么是坏的行为」(如为了凑字数而堆砌引用)。
这种训练让DR Tulu具备了更强的规划能力。
面对复杂的科学命题,它能像成熟的研究员一样,先制定大纲,再分头检索,最后综合多源信息撰写长篇报告。
在最新的测试中,DR Tulu-8B的表现已经足以比肩甚至超越当时的旗舰专有模型,且代码和权重完全开源。
这一系列颠覆性工作的核心人物是即将于2026年秋季入职卡内基梅隆大学的Akari Asai(浅井明里)。
这位从东京大学本科毕业、在华盛顿大学获得博士学位的年轻学者,是近年来「检索增强生成」(RAG)领域最活跃的声音之一。
早在Meta AI实习期间,她就致力于解决大模型的知识瓶颈问题。
Akari Asai的研究哲学非常清晰:不要试图把世界装进模型里,要让模型学会拥抱世界。
她主导的OpenScholar和DR Tulu项目不仅是技术上的精进,更带有一种强烈的「民主化」色彩。
通过开源高性能的小模型和检索架构,她正在打破只有科技巨头才能垄断顶级科研AI工具的局面,让全球资源匮乏地区的科学家也能拥有一位不知疲倦的「超级科研助理」。
科学的本质不是记忆,而是发现。
当我们将AI从死记硬背的参数竞赛中解放出来,赋予其查阅、验证和反思的能力时,我们创造的不再是一个仅会聊天的机器,而是一把能帮人类在浩瀚知识海洋中披荆斩棘的利刃。
未来的科研或许不再取决于你读过多少论文,而在于你如何驾驭那位读过所有论文的AI助手。
本文由主机测评网于2026-04-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435279.html