智东西最新报道,近日,腾讯混元官网正式揭晓了姚顺雨团队最新成果——基准CL-bench的发布。这一评测工具旨在检验大语言模型能否从上下文(Context)中学习和应用新知识。
这是姚顺雨加入腾讯混元担任首席AI科学家后,团队首次公开的研究成果,标志着腾讯混元技术博客的首次亮相。
大模型与人类在解决问题时关键区别为,大模型只能依赖预训练阶段的静态记忆,而人类能实时根据现场情况完成任务。腾讯混元研究团队实测发现,当前最顶尖的SOTA模型几乎无法从上下文中学习,表现最好的GPT-5.1(high)任务成功率也仅有23.7%。
基于此,该团队打造CL-bench的核心目标为:要求模型在解决每个任务时,都必须从上下文中学习模型预训练中不存在的新知识,并正确应用。
腾讯混元技术博客地址:https://hy.tencent.com/research
项目主页:www.clbench.com
近年来,大语言模型快速发展,能解开奥数难题、推演复杂编程逻辑,甚至通过专业资格考试。但其关键局限在于,大模型虽能在考场拿满分,却未必能胜任真实工作。
人类能在执行任务中实时从环境学习。但大语言模型主要依赖“参数化知识”,即预训练阶段压缩进模型权重的静态记忆。在推理时,模型更多调用这些封存知识,而非主动从当前输入中汲取。
因此,当前优化模型擅长对“已知”事物推理,但用户需要的是让模型解决依赖于杂乱、动态变化的上下文的任务。基于此,混元研究人员希望弥合这一差距,改变模型优化方向,构建了专门评测大语言模型能否从上下文中学习新知识并正确应用的基准CL-bench。
CL-bench包含由专家制作的500个复杂上下文、1899个任务和31607个验证标准。其要求模型在解决每个任务时,必须从上下文中学习新知识并正确应用。
模型需学习的知识广泛,包括新领域知识、不熟悉规则系统、复杂产品工作流,甚至从实验数据中推导归纳定律或结论。这些知识由领域专家全新构建或取自小众、长尾来源,因此模型无法通过回忆静态参数化知识解决任务。
CL-bench涵盖四种现实世界上下文学习场景:
研究人员在CL-bench上评估了十个主流大语言模型。平均来看,模型仅解决了17.2%的任务,其中GPT-5.1(High)解决了23.7%的任务。
研究团队得出以下关键结论:
本文由主机测评网于2026-04-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260434938.html