当前位置:首页 > 科技资讯 > 正文

腾讯混元发布新基准,评测大模型上下文学习能力

智东西最新报道,近日,腾讯混元官网正式揭晓了姚顺雨团队最新成果——基准CL-bench的发布。这一评测工具旨在检验大语言模型能否从上下文(Context)中学习和应用新知识。

这是姚顺雨加入腾讯混元担任首席AI科学家后,团队首次公开的研究成果,标志着腾讯混元技术博客的首次亮相。

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第1张

大模型与人类在解决问题时关键区别为,大模型只能依赖预训练阶段的静态记忆,而人类能实时根据现场情况完成任务。腾讯混元研究团队实测发现,当前最顶尖的SOTA模型几乎无法从上下文中学习,表现最好的GPT-5.1(high)任务成功率也仅有23.7%

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第2张

基于此,该团队打造CL-bench的核心目标为:要求模型在解决每个任务时,都必须从上下文中学习模型预训练中不存在的新知识,并正确应用。

腾讯混元技术博客地址:https://hy.tencent.com/research

项目主页:www.clbench.com

1.新基准涵盖500个复杂上下文任务,挑战大模型的死记硬背

近年来,大语言模型快速发展,能解开奥数难题、推演复杂编程逻辑,甚至通过专业资格考试。但其关键局限在于,大模型虽能在考场拿满分,却未必能胜任真实工作。

人类能在执行任务中实时从环境学习。但大语言模型主要依赖“参数化知识”,即预训练阶段压缩进模型权重的静态记忆。在推理时,模型更多调用这些封存知识,而非主动从当前输入中汲取。

因此,当前优化模型擅长对“已知”事物推理,但用户需要的是让模型解决依赖于杂乱、动态变化的上下文的任务。基于此,混元研究人员希望弥合这一差距,改变模型优化方向,构建了专门评测大语言模型能否从上下文中学习新知识并正确应用的基准CL-bench。

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第3张

CL-bench包含由专家制作的500个复杂上下文、1899个任务和31607个验证标准。其要求模型在解决每个任务时,必须从上下文中学习新知识并正确应用。

模型需学习的知识广泛,包括新领域知识、不熟悉规则系统、复杂产品工作流,甚至从实验数据中推导归纳定律或结论。这些知识由领域专家全新构建或取自小众、长尾来源,因此模型无法通过回忆静态参数化知识解决任务。

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第4张

CL-bench涵盖四种现实世界上下文学习场景:

  • 领域知识推理
  • 规则系统应用
  • 程序性任务执行
  • 经验发现与模拟

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第5张

2.十个主流大语言模型成功率仅17.2%,得出五大关键结论

研究人员在CL-bench上评估了十个主流大语言模型。平均来看,模型仅解决了17.2%的任务,其中GPT-5.1(High)解决了23.7%的任务。

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第6张

研究团队得出以下关键结论:

  • 忽略或误用上下文是失败主因
  • 长上下文推理和指令遵循非充分条件
  • 归纳推理比演绎应用更困难
  • 高推理强度提升上下文学习效果
  • 上下文学习难度与长度及复杂度相关

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第7张

腾讯混元发布新基准,评测大模型上下文学习能力 腾讯混元 大语言模型 上下文学习 CL-bench 第8张