OpenAI近期发布了名为FrontierScience的基准测试,旨在通过真实的博士水平难题,从物理学、化学和生物学三个领域全面考察人工智能。现实情况令人警醒:在那些缺乏唯一标准答案的科学研究实践中,AI作为“高效解题工具”,与真正科学家的创新能力相比,仍有巨大差距。
OpenAI于2025年12月16日推出了一套新型基准FrontierScience,用于评估AI在物理、化学、生物三门学科中是否能够进行接近专家水平的科学推理,而非仅仅记忆知识点。
OpenAI在报告中将科学工作描述为一个更接近“持续试错”的过程。
研究人员需要提出假设,设计验证方案,推翻重来,并将不同领域的线索整合为统一图景。
随着模型能力增强,问题变得更为尖锐:AI能否将这种深度推理应用于实际科研推进中?
OpenAI指出,过去一年其系统在国际数学奥林匹克和国际信息学奥林匹克中已达到金牌级别表现,同时更重要的变化发生在实验室和办公室场景。
研究者开始利用这些模型进行跨学科文献检索、跨语言论文阅读,并推动复杂证明的推导。
一些原本需要数日甚至数周完成的工作,现在可压缩到几小时内完成一轮迭代。
为何需要FrontierScience?OpenAI给出了对比说明。
2023年11月,由博士专家撰写、强调“谷歌无法搜索到”的科学题库GPQA发布时,GPT-4仅获得39%的准确率,低于专家基线74%。
两年后,GPT-5.2在同一基准上取得了92%的得分。
随着旧题库逐渐被破解,新的评估标准必须更具挑战性,否则无法衡量模型的进一步发展潜力。
FrontierScience的设计类似于让模型面对两种不同的“科学难关”。
一类偏向竞赛风格,考察在约束条件下进行清晰、高效的推理。
物理竞赛题示例
另一类更贴近研究现场,要求在没有标准答案的开放问题中理清思路,即使答案不够工整。
物理科研问题示例
这套评测包含超过700道文本型题目,其中160道属于“黄金组”题目。
竞赛赛道有100道题,强调短答案形式,便于核对正误。
研究赛道有60个原创研究子任务,由博士阶段或更资深的研究者设计,采用10分制评分,至少获得7分才算通过。
题目质量得到充分保障:
竞赛赛道与42位前国际奖牌得主或国家队教练合作,总计109枚奥赛奖牌;
研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等细分方向。
OpenAI还透露了一个不那么“中立”的细节。
两套题目在制作流程中会刻意剔除OpenAI内部模型已能正确回答的题,因此这套评测对OpenAI自家模型可能更为严苛。
与此同时,他们开源了两套赛道的“黄金组”题目,其余题目保留,用于追踪数据污染。
OpenAI表示,短答案适合机器判定,但研究型任务需要更细颗粒度的量表,因此他们使用GPT-5作为模型判卷员,对照短答案逐项打分。
理想情况下应请专家逐题批改,但现实受规模限制,于是规则被设计为尽量客观且可被模型检查,并配有验证流程来校准难度与正确性。
在成绩单上,OpenAI提供了一轮初步测试对比。
他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI指出,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先;Gemini 3 Pro在竞赛题上取得76%,紧随其后。
更值得注意的是失败原因。
OpenAI从答题记录中总结,前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差。
另一个简单观察也被写入正文:模型思考时间越长,准确率往往越高。
OpenAI对FrontierScience的局限性也直言不讳。
它将科研切割为可控题目,这使得评测更标准化,但也意味着它更像一张高清截图,而非科研的全景纪录片。
尤其是它不评估模型能否提出真正新颖的假设,也不覆盖其与多模态数据和现实实验系统交互的能力。
接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,以观察这些系统如何帮助科学家取得更多成果。
奥赛金牌不等于一流科学家,AI距离成为真正能独当一面的顶尖科学家,仍有漫长道路要走。
参考资料:
https://openai.com/index/frontierscience/
本文由主机测评网于2026-02-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224460.html