当前位置：首页 > 科技资讯 > 正文

AI的“假学习”真相：CL-bench揭示的上下文学习挑战

主机测评网
科技资讯
2026-04-10
558

当下大语言模型虽能解奥数题、通过专业考试、写复杂代码，但在真实世界应用中却常“翻车”。为何？

腾讯的姚顺雨在加入后发布的首篇论文中，提出了一个观点：当前AI与真正智能之间的鸿沟，不在于知识的多少，而在于学习的能力。一个装满知识却不会学习的AI，犹如一个背了整本字典却不会写作的人，看似博学，实则僵化。

这篇论文的标题为《CL-bench: A Benchmark for Context Learning》。

CL-bench是一个专门评测语言模型“上下文学习能力”的大规模基准测试集，全称是Context Learning Benchmark，即上下文学习测试集。

它包含500个复杂上下文场景、1899个任务和31607个评估标注点，所有内容均由各领域资深专家精心挑选。

该基准的核心设计理念，是挑选那些在模型预训练数据中不存在的难题，让每个任务都要求模型从提供的上下文中学习全新知识才能解决。

这篇论文不仅揭示了当前AI的根本性缺陷，还构建了一个专属于AI的评价体系，对AI及agent从业者极具学习价值。

01 一面照出AI“假学习”真相的镜子

从数据规模看，CL-bench每个上下文平均包含3.8个任务，最多可达12个任务。

更重要的是，500个复杂上下文场景中，包含序列依赖性任务的场景占51.1%。

这意味着，若想让AI解决后续任务，必须先从前面的任务中得到正确答案。这种多轮交互设计极大增加了难度。

单任务标注平均需领域专家20小时，每个任务平均配备16.6个评估标注项，从事实正确性、计算准确性、程序正确性、内容完整性和格式合规性等多个维度进行严格验证。

CL-bench考的不是AI记住了多少知识，而是能否像人类一样，拿到新材料后快速学会并正确使用。

这些任务有个共同点：AI必须靠临场发挥才能通过考试。

预训练时学到的知识在此用处不大，因为CL-bench里的知识要么是专家们新编的，要么是现实世界中极其小众的内容。

如何保证CL-bench里的新知识是模型原本没有的呢？

论文通过消融实验验证了这一点。在不提供上下文的情况下，所有被测模型只能解决不到1%的任务。这充分证明了任务对上下文的依赖性。

CL-bench将上下文学习场景分为四大类别，每类对应不同的认知要求：

AI的“假学习”真相：CL-bench揭示的上下文学习挑战上下文学习 AI评测 CL-bench 学习能力第1张

领域知识推理（Domain Knowledge Reasoning）：涵盖金融、医疗、人文、法律咨询、生活方式、管理和科学七个子领域。

上下文提供专业领域知识，如虚构的法律体系、创新的金融工具或小众专业知识。模型需学习并应用这些知识进行推理。

规则系统应用（Rule System Application）：包括游戏机制、数学形式体系、编程语法等五个子类。

上下文提供明确定义的规则系统。模型必须理解并严格遵守这些规则。

程序性任务执行（Procedural Task Execution）：分为教学程序、操作程序和工作流编排三类。

上下文提供复杂的操作流程等。模型需学习并正确执行这些程序。

经验发现与模拟（Empirical Discovery & Simulation）：最具挑战性，包括实验数据等三个子类。

AI的“假学习”真相：CL-bench揭示的上下文学习挑战上下文学习 AI评测 CL-bench 学习能力第2张

与前三类强调演绎推理不同，这一类要求归纳推理。从大量数据中发现潜在规律或在虚拟环境中进行推理和决策。

这四类场景基本覆盖了人类在现实工作中遇到的主要学习情境，而CL-bench又将这些真实场景搬进了评测体系。

02 CL-bench给出的结果，让人们既开心又难过

CL-bench的评估体系严格程度超出想象。

16.6个评估标注项意味着不能仅答对大方向，每个细节都要对。就像做数学题，不仅要答案对，步骤、格式和引用的公式也要对。任何一个环节出错，整道题就算错。

这些标准会从六个角度检查AI的答案，每个标准要么对，要么错，没有中间地带。

事实对不对？比如AI说这个虚构国家的宪法第3条规定了什么，得和上下文里写的一模一样才算对。

计算对不对？如果任务要求计算带电粒子的运动轨迹，那每一步公式、每一个数字都得验证。

03 论文引发的启示

无可置疑的是，CL-bench填补了现有评测体系的关键空白。

服务器教程云服务器免费服务器

本文由主机测评网于2026-04-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260435031.html

AI的“假学习”真相：CL-bench揭示的上下文学习挑战

01 一面照出AI“假学习”真相的镜子

02 CL-bench给出的结果，让人们既开心又难过

03 论文引发的启示

HBN“早C晚A”战略助力上市，护肤市场新秀挑战老将

Xcode 26.3 引入 AI 编程：开发者生态的新篇章

AI的“假学习”真相：CL-bench揭示的上下文学习挑战

01 一面照出AI“假学习”真相的镜子

02 CL-bench给出的结果，让人们既开心又难过

03 论文引发的启示

HBN“早C晚A”战略助力上市，护肤市场新秀挑战老将

Xcode 26.3 引入 AI 编程：开发者生态的新篇章

相关文章