在人工智能时代,人类的存在被重新定义:我们不再是单纯的社会关系总和,而是由海量数据、交互记录和动态上下文构成的数字化实体。
这并非科幻想象,而是当下正在发生的现实变革。
这一变革的起点,是一个长期被误解的领域——上下文工程(Context Engineering)。
来自上海创智学院刘鹏飞老师团队,提出了上下文工程2.0框架,深入剖析其本质、历史脉络与未来走向。
2025年,当你首次向ChatGPT输入精心设计的提示词时,或许认为自己正在进行一项开创性工作——用自然语言“编程”,让AI领会你的意图。
但如果告诉你,早在2000年,佐治亚理工大学的研究者就在从事类似探索呢?
那时还没有GPT模型,甚至连智能手机都未普及。
但Anind Dey及其团队已开始思考核心问题:如何让机器理解人类所处的“上下文”,从而提供更智能的服务?
他们开发了Context Toolkit——一个协助开发者构建“上下文感知应用”的框架。
当你步入办公室,系统能自动:检测你的位置(通过红外传感器)、识别你的身份(通过ID卡)、推断你的活动(会议与个人工作)、调整环境(灯光、温度、通知模式)。
这个过程需要什么?需要工程师精心设计传感器网络、数据融合算法、推理规则——将高熵的原始信号(位置坐标、时间戳、环境数据)转化为机器可理解的低熵表示(“用户正在开会,请勿打扰”)。
这就是上下文工程。
再向前追溯,1994年,Bill Schilit在其博士论文中首次提出“上下文感知计算”的概念。
2001年,Anind Dey给出了至今仍被广泛引用的定义。
上下文是任何可用于刻画实体情境的信息。
因此,当团队声称“上下文工程已历经30年”,这并非夸张,而是事实。
上下文工程并非新发明,而是一个持续30年的进化历程。
变化在于:机器能理解的“你”日益完整;不变的是:人类始终致力于让机器理解“何为人”。
而这一努力的本质是什么?
让我们先进行一个思维实验。
场景1:两个人类的对话
A: “我有点冷” >B: (起身关窗) / (递过外套) / (调高空调温度)
场景2:人与传统机器的对话
用户: “我有点冷” >系统: 错误:未知指令。请指定精确操作。 >用户: 无奈地走到空调前,手动调到24°C
场景3:人与ChatGPT的对话
用户: “我有点冷”ChatGPT: “理解你感到寒冷。我可以协助:1、若你有智能家居,我可生成调温指令 2、提供保暖建议 3、若在办公室,建议与同事沟通调整空调…”
看出差异了吗?
人类沟通如此高效,源于我们具备一种神奇能力:我们会主动“脑补”。
当A说“我有点冷”,B的大脑瞬间完成复杂推理:
语义理解:这不是物理讨论,而是表达不适
意图推断:他可能希望我采取行动
情境补全:窗户是否开着?空调温度过低?他忘了带外套?
知识调用:我知道关窗/递衣/调温可解决问题
社交判断:我们的关系足够密切,我可主动协助
此过程,用信息论语言描述,即熵减少。
想象一个充满气体分子的房间。分子随机运动,高度无序,此为“高熵”状态。若你想让它们排列成特定图案,需做功——此即“熵减少”。
人类语言亦然:
“我有点冷”这句话本身是高熵的——它信息量稀少,意图可能多样。
但人类大脑会自动将其转化为低熵的具体行动——基于共享知识、经验、情境……
机器无法做到这点——此即人机间的认知鸿沟。
如何定义认知鸿沟?
简言之,认知鸿沟=人类的上下文处理能力 - 机器的上下文处理能力
大致可分四个等级:
时代1.0: 鸿沟约90%(机器几乎不懂)
时代2.0: 鸿沟约30%(机器懂自然语言)
时代3.0: 鸿沟约1%(机器接近人类水平)
时代4.0: 鸿沟<0(机器超越人类)
现在我们可为上下文工程给出精确定义:
上下文工程是一个熵减少过程,旨在弥合人类与机器间的认知鸿沟。
它通过收集、管理和使用上下文信息,将高熵的人类意图与环境状态,预处理为机器可理解的低熵表示。
上下文工程不是“翻译”,而是“预消化”:
翻译:将中文变英文,形式变,信息量不变。
预消化:将牛排切碎、嚼烂,便于婴儿吞咽,即降低处理难度。
你在做的是:将高熵的“你”,压缩成机器能消化的低熵形式。
若将上下文工程的历史绘成画卷,它将呈现一条收敛曲线——人类与机器间的认知鸿沟,随技术进步不断缩小。
每一次缩小,都引发一场交互革命。
每一次技术突破(认知鸿沟缩小),都会引发三重连锁反应:
1、界面革命:需要新交互容器以最大化新技术潜力
2、上下文容量扩张:机器能处理的上下文范围急剧扩大
3、工程范式转移:上下文工程方法论发生根本改变
这不是巧合,而是必然规律。
想象2005年的某个下午。你想让电脑做件简单事:“把昨天的报告发给张经理”。但你不能这么说。
你必须:打开Outlook → 新建邮件 → 搜索收件人 → 找到文件 → 附加 → 发送。
至少20步操作,几分钟时间。
这就是时代1.0的真相:机器不懂你所思,你必须将每个意图分解为机器能理解的原子操作。
为何机器如此“愚钝”?因那时代计算机本质是状态机——只会执行预编程序,不会推理,不会理解。
既然机器无法理解自然语言,那能否让它至少“看到”用户状态?
1994年,Bill Schilit进行实验:在办公室布满传感器,给员工发ID卡。
当你走进会议室,系统自动检测到:“这是张三,在301会议室,现14点,日历显示有会议”。
于是自动:手机静音、投影文档、邮件自动回复“开会中”。 这是人类让机器“主动理解情境”。
研究者设计了一个四层架构:
【应用层】智能服务(自动调节灯光、推荐文档)
【推理层】规则决策(若在会议室且14点则静音)
【上下文管理层】标准化数据(位置=301,时间=14:00)
【感知层】传感器原始数据(GPS、时间戳、ID信号)
这是一条从高熵到低熵的流水线。
然而,机器只执行工程师预设的if-then规则。遇到未覆盖情况?崩溃。
就像只会背菜谱的厨师——菜谱没有的菜,他不会做。机器无真正“理解”,只有机械“匹配”。
尽管技术受限,时代1.0建立了深刻理论基础。
2001年,Anind Dey的定义至今仍是黄金标准:
“上下文指任何可用于刻画相关实体(如人、地点或物体)所处情境的信息,这些实体被认为与用户和应用程序间的交互有关,其中包括用户本身及应用程序本身。”
Dey设计的Context Toolkit,首次让“上下文”成为可模块化、可复用的工程对象。
2020年,一切改变。
那年,OpenAI发布GPT-3。
当人们首次看到演示,普遍震惊:你输入:“帮我写封邮件,告诉老板我明天请假看病。” 它输出格式完整、措辞得体的请假邮件。
这是时代2.0的分水岭:机器从“状态机”进化成“理解者”。
还记得时代1.0的痛苦吗?你必须将“发邮件”分解成20步。现在呢?
熵减少工作,从人类转移至机器。
认知鸿沟缩小,人类终可用习惯方式——自然语言——与机器对话。
但时代2.0不只是“会说话”这般简单。革命发生在多层:
第一,感知升级:从单一传感器到多模态融合。
时代1.0系统只能读懂GPS、时间戳等结构化数据。
时代2.0系统能看懂图片(你发菜谱照片,它能识别食材步骤)、听懂语音(你说“我想吃川菜”,它理解口味偏好)、读懂文档(你上传PDF合同,它能提取关键条款)。
这叫“多模态感知”——机器学会以人类方式接收信息。
第二,“高熵上下文消费能力”提升:从“只吃精加工食品”到“能消化原材料”。
这是时代2.0最关键突破。
用比喻:时代1.0机器像婴儿,只吃米糊(结构化数据);时代2.0机器像成人,可直接吃牛排(原始信息)。
何为“原始信息”?
你随手写的一段话:“我觉得最近压力大,想找安静地方度假。” 此句高熵:未明确说去哪、预算多少、何时。
但GPT能理解:“压力大”→需放松,“安静地方”→避热门景点,“度假”→可能3-7天。然后它会问:“您预算大概多少?倾向国内还是国外?”
这就是“高熵上下文消费能力”——机器学会处理模糊、不完整、高熵输入。
用信息论语言:时代2.0系统可接受高熵输入,并通过自身智能进行熵减少。
第三,从“被动响应”到“主动协作”。
时代1.0系统是反应式:“若位置=会议室则手机静音”。
时代2.0系统是协作式:你在写论文→系统分析写作进度→发现你卡在第三章→主动建议:“要不要我帮你梳理逻辑?”→你同意→它生成大纲→你修改→它据反馈调整。
这不是“感知你的状态”,而是“理解你的目标并帮你达成”。 我们从上下文感知进化到上下文协作。
以GitHub Copilot为例,工程师不再需写“若用户输入函数名则提示参数列表”此类规则。
相反,模型通过学习数十亿行代码,自己理解“上下文”含义。
但此处有微妙点:上下文窗口限制。
GPT-3上下文窗口仅4096个token(约3000字)。这意味着,即使模型聪明,它也只能“看到”有限上下文。
故上下文工程又成精选上下文艺术:何信息最重要?如何在有限空间塞进最多价值?如何组织信息让模型更好理解?这就是提示工程。
在智能体背景下,提示工程偏向单次,而当对话更偏多轮维护和演化,我们又有普遍理解的上下文工程。
这基于现实需求:需多次推理和更长时间范围内运行的AI智能体。
上下文工程在动态策划和管理进入上下文窗口的信息流:包括收集、存储、管理、利用。
这本身具多设计元素,故Karpathy说:上下文工程是艺术和科学。
讽刺的是,当机器变得更聪明,上下文工程反变得更复杂。
为何?因选择太多:
我该给它多少上下文?
以何顺序组织?
如何平衡细节和概括?
何时用少量示例,何时用零示例?
如何避免“迷失中间”问题?
这就是为何我们需要系统化框架。
理解上下文工程本质(熵减少)和历史(30年演化),让我们回到最实际问题:
在大模型时代,如何做好上下文工程?
基于对100+篇论文分析及实践经验,团队提出系统化框架:
上下文工程 = 收集 × 管理 × 使用
即:上下文工程 = 如何收集上下文 × 如何管理上下文 × 如何使用上下文
这三个维度正交——你可在每个维度上独立优化。
核心问题:如何收集并存储有价值上下文?
收集本质是回答:机器需知道“你”哪些方面?
在时代1.0,机器趋向单设备、结构化,机器只需知你“指令”。
机器能收集上下文极有限:GPS: 你在哪;时钟: 现几点;键盘: 你打什么字
存储?全在本地硬盘,txt日志或简单数据库。网络上传?那时网速慢、不稳定,根本不现实。
时代2.0,多设备、多模态成熟,机器需知你“意图”。
机器可从无数“触角”收集上下文,传感器更强大:手机GPS/加速度计/摄像头、可穿戴设备心率/步数、智能家居温度/光线、云服务邮件/日历、第三方API天气/交通。
更重要的是,机器学会“多模态融合”: 看图片(识别你在吃什么)、听语音(理解情绪意图)、读文档(分析工作内容)。
对于存储,上下文存储可不限于上下文窗口,也可扩展至本地文件存储,甚至上传云端,或存于大模型参数中。
团队预测,时代3.0将实现无感采集,机器需知你“状态”。
此时,上下文收集应更顺滑。通过脑机接口,可获得人注意力、情绪、认知负荷等;通过AR眼镜,人视线、环境、社交互动可被更好捕捉……
收集上下文后呢?
想象你刚结束3小时头脑风暴会议。笔记本写满想法、疑问、决策、待办事项。现你会如何处理这些信息?
若你什么都不做,只把笔记本扔进抽屉——那么之后,你可能只剩几个模糊印象。
若你花30分钟整理——提炼核心决策、标注优先级、归档到不同文件夹——这样你可快速找到关键信息,接着干活。机器也面临同样问题。
这就是上下文管理本质:存储和组织原始信息,让上下文可被更好利用。
你和AI聊3小时,生成20万个token。
现你问新问题,AI需读完这20万个token吗?显然不行。设计时,人往往会采取系列组织策略:
分层记忆架构:我们可将记忆分成长短期。如短期记忆(RAM)可能存当前对话最近10条消息,长期记忆(硬盘)可能存储跨会话重要知识和偏好。
子代理隔离上下文:Claude Code创建子代理执行独立任务(“搜索文档”),给它独立上下文窗口和最小权限。完成后只返回结果——不污染主上下文。就像人类临时叫同事查数据,他只告诉你结论。
轻量引用:不把大文件塞进上下文,而是存到外部,只放“指针”。平时只看摘要,需要时再调用完整数据。
不过,若只原样存储对话,那只是“记忆”——得翻遍所有对话才能找信息。
但若AI能主动提炼——把100条对话压缩成“用户偏好清淡口味,关注健康,预算中等”——这就变成“知识”。
就像人类认知过程: 短期记忆(今天吃什么)→语义记忆(我喜欢吃川菜);具体经历(每次开车细节)→技能(开车技能)。
这记忆不断抽象化乃至形成认知的过程,被称为自烘焙。
团队策略可能是——
自然语言摘要:保存完整对话,定期生成摘要。
结构化提取:提取关键事实填入预定义结构,构建实体图(用户-偏好-航班-关系)。
渐进式向量压缩:把信息编码成数学向量,多级压缩(100条对话→10个向量→1个超级向量)。旧向量定期“合并”成更抽象向量。
而自烘焙本质,其实就是把“存储”和“学习”分开。
无自烘焙:AI只会回忆(“你上次说什么?”)
有自烘焙:AI可积累知识(“我知道你喜欢什么”)
这是从“工具”到“伙伴”的分水岭。
收集上下文,管理好上下文,最终还是要用起来。
我们还是分三个阶段讨论:
时代1.0: 被动响应
那个时代,机器只会“若-则”。
你走进办公室,传感器检测到:“位置=办公室,时间=9:00”,于是系统执行:“手机静音,打开电脑”。
上下文使用完全被动、固定、局部——每个模块各自为政,通过集中式上下文服务器读取数据,遵循全局模式,无协作,无推理,无适应。
这不是“理解”,只是“匹配”。
时代2.0: 主动理解
现在,机器学会初步“理解”和初步“协作”。
对于上下文利用,2.0时代有很多设计考量:
在多智能体系统中,多智能体间上下文怎么共享?
在RAG过程中,怎么进行更好选取和搜索?怎么更好让回答符合用户个性化?
甚至未来,上下文长度越来越长,中间会遇到什么样挑战?
工业上,也有很多细节策略。比如怎么处理kv缓存?怎么更好设计工具?Claude Code相关设计是什么?深度研究相关设计是什么?
时代3.0:流畅协作
那时,交互将变得完全自然——你感觉像在和深刻理解你朋友交流。
系统间协作不再需翻译器,AI代理们像人类一样自然理解彼此,动态对齐概念和意图。上下文选择变成主动构建——预测你下一步需要什么,提前准备好支持性上下文。
记忆系统真正像人脑一样自主进化,自己发现复杂关系,动态调整结构,主动决定什么该记、什么该忘。
甚至AI不再需你明确说明需求,通过微妙线索就能把握你真实意图,甚至在你未意识到时就提供帮助。
那时人机共生应是这样:AI成为你认知延伸,而非外部工具。
关键转变两点:
1、从感知上下文,到协作上下文,到构建上下文,
2、机器不再只理解你上下文,而是开始为你构建新上下文。
现在,我们做大胆思想实验。
若认知鸿沟收敛曲线继续延伸,进入时代4.0会发生什么?
我们认为,在某些任务上,AI能力将超越普通人类。这不是科幻,而是正在发生:
国际象棋: AI早已超越人类(1997)
围棋: AlphaGo超越人类(2016)
蛋白质折叠: AlphaFold超越人类(2020)
代码生成: Copilot在特定任务上接近专家水平(2023)
数学推理: 正快速逼近(2024-2025)
问题是:当AI全面超越普通人类时,上下文工程会变成什么样?
可能是:AI不再等你问问题;AI通过分析你行为模式,推断出你自己还未明确需求;AI主动构建上下文,而非被动接收……
这是认知倒置:从“人教机器”到“机器引导人”。
因此,我们认为,上下文会构成新的人类身份。
当员工离职后,组织可能仍保留其“上下文表示”,系统可咨询、模拟甚至与这上下文协作。
这些上下文总和,在某种意义上,就是“数字化的你”。
简言之——
传统观念:人 = 身体 + 意识
新观念:人 = 上下文总和
写到这里,我们跟随团队完成30年时空旅行:
从1994年上下文感知,到2024年上下文协作,再到2050年可能的认知融合。
上下文工程核心,从未改变:
弥合人与机器间认知鸿沟,让两种不同智能形态能相互理解、协作、共生。
但它的形态,在不断演化:
时代1.0: 硬件密集型(传感器、规则引擎)
时代2.0: 数据密集型(用户画像、知识图谱)
时代3.0: 语言密集型(提示工程)
时代4.0: 认知密集型(超智能引导人类)
时代5.0: …
人类正站在通向3.0的转折点上。
基于此,团队给出三个行动建议——
对研究者:
这领域还有太多未解之谜:如何评估上下文质量?如何在隐私和效用间平衡?如何设计伦理上下文工程?如何处理上下文动态演化?如何在多智能体系统中管理上下文?
这些问题的答案,将定义下一个十年。
对开发者:
下一个界面革命正在酝酿。从CLI到GUI用20年,从GUI到Mobile用15年,从Mobile到Chat用10年,下一次革命会更快。
谁能设计出最好“上下文容器”,谁就能定义下一个时代的交互范式。机会窗口正打开。
对所有人:
思考一个问题:若你是你上下文总和,若你上下文会在你之后继续存在,若未来AI会基于你上下文来“模拟”你,那么,你想留下什么样的上下文?
这不是技术问题,这是一个存在主义问题。你每一次对话、每一个决策、每一个创作,都在塑造你“数字遗产”。
你在书写你上下文,而你上下文,也在定义你。
你上下文,塑造了你看到的这篇文章。
这篇文章,也将成为你上下文一部分。
论文地址:https://arxiv.org/pdf/2510.26493
Github 地址:https://github.com/GAIR-NLP/Context-Engineering-2.0
SII Personal Context:https://www.opensii.ai/
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118539.html