当前位置:首页 > 科技资讯 > 正文

腾讯AI新突破:上下文理解成关键

春节未到,各企业已蓄势待发:先有红包雨下,后有奶茶豪赠——不过是小数目,区区30个小目标而已。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第1张

预算先行,基建紧随其后,毕竟当推广预算耗尽,用户留存多少,全看产品本身。如此看来,腾讯在下半年挖得前OpenAI研究员、清华姚班天才少年姚顺雨,可谓高瞻远瞩。

掌舵腾讯AI后,姚顺雨终于发布了首个署名研究,这是腾讯混元团队携手复旦大学的研究成果,聚焦于上下文。这虽是个小众技术点,但研究揭示了让日常AI用户脊背发凉的真相:如果我们把大模型从『背书模式』切换到『现学现卖模式』,即使是当前最强AI,得分率也仅23.7%。

这项研究远非技术圈八卦,它直接解释了为何普通用户常感AI『听不懂人话』、『固执己见』或『胡言乱语』。若说AI有何阿喀琉斯之踵,那非上下文莫属。

上下文:AI的灵魂

要理解研究价值,需先了解大模型运作两阶段。

第一阶段为预训练。模型通过海量互联网数据,记住丰富知识与模式。这是AI知识来源,也是回答通用问题的基础。

但问题在于,预训练数据静态,反映模型训练截止前的世界。一旦脱离此范围,模型便盲目——而现实世界是动态的。

于是进入第二阶段,情境学习,即上下文处理。当你给AI全新、内部或复杂规则文本时,你要求它跳出预训练记忆,根据眼前信息进行实时推理与判断。

比如公司内部会议纪要等,或游戏新活动规则。这些知识从未在网上出现过,只能由你将规则、信息(即『上下文』)传给AI,让它根据新知识回答问题。

这才是现实:互联网并非应有尽有。模型对上下文的学习能力至关重要,甚至可以说:上下文,就是AI的灵魂。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第2张

若AI记不住或误解上下文,便开始编造(幻觉),可能根据『记忆』中通用规则回答——会议纪要明明说行政部负责下午茶,它却说是产品经理负责。

这正是混元团队构建CL-bench的初衷。他们构建了近2000个从未在网上公开、由专家精心构造的『全新情境』,包括虚构法律体系、新编程语言等。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第3张

据CL-bench排行榜,目前最先进的GPT-5.1 (High)模型正确率仅23.7%,Claude Opus 4.5约为21.1%,其他模型大多徘徊在10%-18%。

这意味着,当我们要求AI『忘你以前所学,只看这段新信息』时,它们很可能搞砸。它们像固执的学生,哪怕老师黑板上写『今天1+1=3』,它仍会喊『1+1=2』,因为新知识对它而言都『超纲』了。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第4张

CL-bench研究揭示了模型在情境学习中失败的深层原因,解释了为何使用AI时感其时而聪明时而愚蠢。

最常见原因:模型预训练所学太『根深蒂固』。接收新上下文时,往往无法有效抑制预训练数据中根深蒂固的模式。

例如,在CL-bench测试中,研究人员构建了虚构软件开发包Skynet SDK。尽管是虚构名,但因『Skynet(天网)』在AI潜意识(预训练数据)中太知名,模型可能将《终结者》设定带入,无视说明文档枯燥代码规则。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第5张

此外,复杂逻辑推演能力仍是技术瓶颈——虽能处理数万字文本,却不一定能从数据中精准提取关键信息。研究发现,当提供非常长、逻辑复杂的上下文时(如复杂逻辑推理链、多轮交互依赖),模型表现直线下降。

为何是腾讯来做?

CL-bench是姚顺雨入主腾讯后首次署名成果。若将其置入腾讯庞大产品矩阵中审视,可见『上下文学习』与这家互联网巨头业务逻辑之关联。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第6张

与其他更偏向搜索或通用生产力工具的科技公司不同,腾讯根基深植于『社交』与『内容』之中。这两个领域对AI上下文能力要求极其苛刻。

试想微信或QQ使用场景。这里产生的数据非孤立问答,而是连续、高度碎片化对话流——最新元宝派即为例。用户试图在数百条消息群聊中让AI总结重点或在数月私聊记录中寻找约定细节时,AI面临的挑战正是CL-bench测试极限:它必须在不依赖外部通用知识前提下精准理解这段封闭对话特有的语境、人际关系和隐含逻辑。

腾讯AI新突破:上下文理解成关键 腾讯 AI 上下文 CL-bench 第7张

若AI无法妥善处理高密度上下文则无法融入十亿用户社交链路只能成为打断对话流畅度的累赘。

另外腾讯在游戏与企业服务领域的布局也决定其对『情境学习』的渴求。游戏方面各家探索AI如何根据即时操作和游戏内实时局势(即游戏上下文)做出反应而非机械背诵预训练台词。

在企业微信和腾讯会议场景中用户需要基于特定会议纪要或私有文档的精准分析。这些场景下通用预训练知识无效甚至因幻觉带来严重误导。

在场景中满分学生未必能胜任真实世界工种——混元团队意识到了这一点也是当下AI的写照。对坐拥海量应用场景的腾讯来说一个能在复杂上下文中保持清醒、逻辑严密的模型远比博学但死记硬背的模型更具商业价值与落地潜力。