当前位置:首页 > 科技资讯 > 正文

AI的“假学习”真相:CL-bench揭示的上下文学习挑战

当下大语言模型虽能解奥数题、通过专业考试、写复杂代码,但在真实世界应用中却常“翻车”。为何?

腾讯的姚顺雨在加入后发布的首篇论文中,提出了一个观点:当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。一个装满知识却不会学习的AI,犹如一个背了整本字典却不会写作的人,看似博学,实则僵化。

这篇论文的标题为《CL-bench: A Benchmark for Context Learning》。

CL-bench是一个专门评测语言模型“上下文学习能力”的大规模基准测试集,全称是Context Learning Benchmark,即上下文学习测试集。

它包含500个复杂上下文场景、1899个任务和31607个评估标注点,所有内容均由各领域资深专家精心挑选。

该基准的核心设计理念,是挑选那些在模型预训练数据中不存在的难题,让每个任务都要求模型从提供的上下文中学习全新知识才能解决。

这篇论文不仅揭示了当前AI的根本性缺陷,还构建了一个专属于AI的评价体系,对AI及agent从业者极具学习价值。

01 一面照出AI“假学习”真相的镜子

从数据规模看,CL-bench每个上下文平均包含3.8个任务,最多可达12个任务。

更重要的是,500个复杂上下文场景中,包含序列依赖性任务的场景占51.1%。

这意味着,若想让AI解决后续任务,必须先从前面的任务中得到正确答案。这种多轮交互设计极大增加了难度。

单任务标注平均需领域专家20小时,每个任务平均配备16.6个评估标注项,从事实正确性、计算准确性、程序正确性、内容完整性和格式合规性等多个维度进行严格验证。

CL-bench考的不是AI记住了多少知识,而是能否像人类一样,拿到新材料后快速学会并正确使用。

这些任务有个共同点:AI必须靠临场发挥才能通过考试。

预训练时学到的知识在此用处不大,因为CL-bench里的知识要么是专家们新编的,要么是现实世界中极其小众的内容。

如何保证CL-bench里的新知识是模型原本没有的呢?

论文通过消融实验验证了这一点。在不提供上下文的情况下,所有被测模型只能解决不到1%的任务。这充分证明了任务对上下文的依赖性。

CL-bench将上下文学习场景分为四大类别,每类对应不同的认知要求:

AI的“假学习”真相:CL-bench揭示的上下文学习挑战 上下文学习 AI评测 CL-bench 学习能力 第1张

领域知识推理(Domain Knowledge Reasoning):涵盖金融、医疗、人文、法律咨询、生活方式、管理和科学七个子领域。

上下文提供专业领域知识,如虚构的法律体系、创新的金融工具或小众专业知识。模型需学习并应用这些知识进行推理。

规则系统应用(Rule System Application):包括游戏机制、数学形式体系、编程语法等五个子类。

上下文提供明确定义的规则系统。模型必须理解并严格遵守这些规则。

程序性任务执行(Procedural Task Execution):分为教学程序、操作程序和工作流编排三类。

上下文提供复杂的操作流程等。模型需学习并正确执行这些程序。

经验发现与模拟(Empirical Discovery & Simulation):最具挑战性,包括实验数据等三个子类。

AI的“假学习”真相:CL-bench揭示的上下文学习挑战 上下文学习 AI评测 CL-bench 学习能力 第2张

与前三类强调演绎推理不同,这一类要求归纳推理。从大量数据中发现潜在规律或在虚拟环境中进行推理和决策。

这四类场景基本覆盖了人类在现实工作中遇到的主要学习情境,而CL-bench又将这些真实场景搬进了评测体系。

02 CL-bench给出的结果,让人们既开心又难过

CL-bench的评估体系严格程度超出想象。

16.6个评估标注项意味着不能仅答对大方向,每个细节都要对。就像做数学题,不仅要答案对,步骤、格式和引用的公式也要对。任何一个环节出错,整道题就算错。

这些标准会从六个角度检查AI的答案,每个标准要么对,要么错,没有中间地带。

事实对不对?比如AI说这个虚构国家的宪法第3条规定了什么,得和上下文里写的一模一样才算对。

计算对不对?如果任务要求计算带电粒子的运动轨迹,那每一步公式、每一个数字都得验证。

03 论文引发的启示

无可置疑的是,CL-bench填补了现有评测体系的关键空白。