当前位置：首页 > 科技资讯 > 正文

上下文工程：AI时代的人机沟通熵减艺术

主机测评网
科技资讯
2026-01-21
593

2025年6月，Shopify的首席执行官Tobi Lütke与人工智能领域权威Andrej Karpathy在X平台上共同提出了一个创新概念——上下文工程。Karpathy将其界定为“一门精妙的艺术与科学，旨在填充恰如其分的信息，为后续推理奠定基础。”

然而，这一新概念与提示词工程究竟有何区别？它为何会与RAG、MCP等技术相关联？以往的解读多从技术层面切入，试图剖析上下文的构成要素及其优化方式。

10月30日，上海交通大学与GAIR实验室联合发布了论文《上下文工程2.0：上下文工程的上下文》，以更全面的视角定义了这一新兴领域。它不再将人机交互视为技巧性操作，而是回归到交流动力学的根本逻辑。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第1张

本文将以该论文为基础，系统性探讨三个核心议题：上下文工程究竟是什么？它的基础构件有哪些？未来将如何演进？

01 上下文工程是什么？一门关于熵减的经典学科

要理解上下文工程，首先需回答：为何人与机器的交流如此艰难？

论文指出，这源于人类与机器之间存在的深刻认知鸿沟。

人类的交流具有高熵特性，表达往往无序、混乱且蕴含大量隐含信息。例如，当我对同事说“帮我搞定那个报告”，对方需依靠记忆中的“那个报告”指代、从语气判断紧急程度、理解“辛苦”背后的社交暗示。这些均是海量、模糊且非结构化的上下文。

而机器则是低熵实体，它无法接纳过多上下文，只能解析明确、无歧义的指令。

为弥合这道鸿沟，人类必须将“高熵”意图转化为机器可理解的“低熵”指令。其关键途径，便是构建更丰富、更高效的上下文。正如马克思所言，人的本质是社会关系的总和。若要让AI更深入地理解我们，就需让它洞悉人所处的所有情境。

这就是上下文工程的核心本质，即通过优化上下文，实现系统性的熵减过程。

在该系统中，最重要的元素是实体，包括人、应用程序与环境。上下文，则是描述实体状态的所有信息。

上下文工程则是对上下文的收集、管理与使用进行设计与优化，以提升机器理解能力与任务执行效果的努力。

从这个角度看，上下文工程绝非全新概念。在AI兴起之前，它已发展逾20年，而如今，我们正步入上下文工程2.0时代。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第2张

1.0时代 (1990年代-2020年)：上下文即翻译

自计算机诞生以来，我们便持续探索人机理解的逻辑。操作系统的用户界面（UI）即是最古老且最成功的上下文工程实践。

在那个时代，上下文工程的核心是翻译，即将人类的自然语言意图转化为机器可理解的语言。工程师通过设计图形界面（GUI），利用鼠标操作与结构化界面，将高熵意图“工程化”为低熵交互流程。编程语言亦是如此，它将自然语言框架转化为规范指令。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第3张

但这一过程实际上违背了人类的自然表达天性。例如学习编程，不仅要掌握语言，还需习得一种规范化的思维方式。

2.0时代 (2020年至今)：上下文即指令

2020年，随着GPT-3的发布，我们迎来了一个全新时代。用户可直接使用自然语言与机器对话。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第4张

翻译的中间层消失了，设计师与程序员的熵减工作也随之消弭。

但普通用户发现，尽管与AI交流无需翻译，它依然难以理解话语背后的隐含信息。

熵减的需求并未消失，只是转移到了用户身上。他们必须学会精确表达意图、构建有效提示词、调试输出结果。

这就是提示词工程兴起的原因，人们试图重新发明一种结构化的自然语言以减少沟通障碍。

但除了规范自身表达，我们还可以从模型本身入手，为其提供更优的脚手架与系统，以更好地理解我们的意图。

这正是上下文工程诞生的背景。

02 AI与人沟通，为何仍存在理解差距？

既然上下文工程旨在解决当前人与AI沟通的隔阂，那么AI无法像人类一样进行高熵交流的核心原因有哪些？

论文通过对比人类沟通，总结了AI的八大缺陷，可归纳为四类。正是这些缺陷导致AI难以理解我们的高熵交流，从而产生隔阂。

首先，AI的感官是残缺的。人类沟通时接收大量文字外信息，而AI仅能获取用户明确输入。它无法感知我们所处环境，上下文收集存在先天不足。

第二是AI的理解能力有限。与人类相比，AI在理解与整合上下文方面能力较弱。即便感官完备，将所有信息输入AI，它也不一定能理清其中关联。当前模型难以处理复杂逻辑与图像中的关系信息。

第三点尤为关键，即记忆的缺失。Transformer架构存在长上下文性能瓶颈，导致模型既缺乏长期记忆系统，也难以捕捉长距离依赖关系。AI记不住过往对话，便无法像人类一样建立背景共识。正是这些“共同知晓的过去”，让人类交流如此高效。而当前试图存储记忆的方法，如RAG等，效率仍较低下。

第四，相对于人类，AI的注意力是涣散的。这被论文称为“上下文选择困难”。即便我们解决了记忆问题，为AI外挂了长期记忆（如RAG），理论上可存储所有内容。但面对海量信息时，AI不知该关注何处。

针对这些缺陷，过去的提示词工程通过添加“前情提要”修补记忆缺失，通过手动精炼信息、规范化表达减少理解与注意力负担。它堪称上一代针对模型缺陷的全面补丁。

但这一过程过于耗费精力。

因此，优秀的上下文工程，应尽可能搭建脚手架，让模型借助系统以弥补当前能力不足。让AI真正成为人的数字存在（Digital Presence），使人们可通过上下文实现“数字永生”，让你的对话、决策与交互轨迹持续演化。

但此过程若依赖人力则效率低下。优质的上下文工程，应构建脚手架，让模型依托系统解决现有能力短板。

03 上下文工程，AI时代的架构师

为解决模型当前问题，论文提出了一个包含收集、管理、使用三个阶段的完整上下文工程体系。这张技术蓝图详细阐明了为弥补LLM缺陷而必须构建的庞大脚手架系统。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第5张

构件一：上下文收集与记忆系统

这一构件主要修复AI的“感官残缺”与“记忆缺失”。

上下文收集方面，我们必须超越简单文本输入，转向多模态、分布式收集。

多模态融合，即将文本、图像、音频通过各自编码器映射到共享向量空间，让模型真正理解多模态内涵。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第6张

而分布式收集，则通过智能手机、可穿戴设备、物联网传感器，甚至脑机接口，主动捕捉用户难以用文字清晰表达的环境上下文与高熵信息。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第7张

存储系统则是为记忆搭建脚手架。为解决Transformer带来的记忆缺失，我们需要构建分层内存架构，让模型形成类人的记忆结构。

它类似于操作系统的内存管理：短期记忆是AI的内存，即有限的上下文窗口；长期记忆是AI的硬盘，用于持久化存储高重要性上下文的外部数据库。

两层之间，需建立类似睡眠的记忆转移机制。系统处理过往内容，将重要的短期记忆转存为长期记忆。

构件二：上下文管理

这主要解决AI理解能力有限、难以处理复杂逻辑与关系信息的问题。

核心是上下文抽象，论文称之为“自我烘焙”（Self-Baking）。既然AI难以解析原始、高熵的上下文，这一脚手架便充当预处理器，主动将上下文消化并烘焙成AI可理解的低熵结构。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第8张

这并非简单摘要，而是区分记忆存储与学习的关键。没有它，智能体仅是在回忆；有了它，智能体才是在积累知识。

目前流行的实现方法从简单到高级分为三种：

自然语言摘要：让AI自行摘要重要信息，但它是纯文本，缺乏结构，难以深度推理。

模式化提取：从原始上下文中提取关键事实（人、地点、事件），按固定模式存入知识图谱。AI不再需要理解复杂关系，只需查询已准备好的结构化关系图。

在线蒸馏：如Thinking Machine提出的方法，将上下文渐进式压缩为向量，转化为模型自身的知识。

构件三：上下文使用

这一构件主要解决AI注意力涣散问题，规范收集与管理后的上下文如何进行协作与推理。

论文提出的解决方案直接而有效，即构建高效的上下文选择机制，先行过滤注意力。

当前，模型在RAG中搜索记忆时过度依赖语义相关性（向量搜索），会检索出大量信息，导致上下文过载，理解能力大幅下降。

因此，我们需要一个更高效的搜索机制。它需满足以下特质：

理解逻辑依赖。让AI在使用RAG搜索时依据逻辑关系，而非简单询问“何种信息在语义上最相似？”

平衡新近度与频率。优先关注“最近使用过”或“频繁使用”的信息。

最终，模型应达到主动需求推断的水平。系统不再被动等待提问，而是基于上下文，对用户隐藏目标进行分析，主动推断下一步所需信息，并提前准备。

至此，这一上下文工程框架通过收集、管理、使用上下文，弥补了AI在“感官”、“理解”、“记忆”和“注意力”上的四大缺陷，形成了一套完整的闭环工作流程。

在此流程下，我们可以将提示词工程的重担转移回模型自身，让它通过系统尽可能准确地理解我们。

04 上下文3.0与4.0：最佳上下文工程，即无上下文

论文的“蓝图”并未止步于此。随着基础模型认知能力持续提升，我们将迎来熵减努力主体的第二次乃至第三次转移。

上下文工程：AI时代的人机沟通熵减艺术上下文工程人工智能熵减提示词工程第9张

上下文工程3.0时代，将在机器智能达到人类水平、能处理情绪与暗示等复杂上下文模态时到来。

届时，理解瓶颈将被突破，记忆处理趋于成熟，AI将主动理解我们的“场景”并与我们协同工作。但在此时代，长期记忆问题仍未完全解决，模型主动性依然有限。

上下文工程4.0时代，则将在机器智能达到“超人智能”时降临。此时，人机交流的熵被彻底消除。你无需多言，它便能预测你的意图并执行安排。

在这个时代，上下文工程消失了。

或者更准确地说，它所搭建的脚手架最终融入了核心架构。

这在技术发展史中几乎成为常态。最典型的案例即注意力机制本身。该机制最初是作为编码器-解码器RNN的“外挂补丁”出现，用以解决序列翻译中的瓶颈问题。但到2017年，Transformer架构彻底将注意力机制内化为核心，仅移除RNN部分以实现并行处理。曾经的脚手架，演变为当今所有大语言模型的基础架构。

类似的故事，在上下文工程领域也已上演。

2025年3月，Sam Altman宣布将在所有OpenAI产品中添加MCP支持，包括ChatGPT桌面应用。这标志着工具使用能力不再仅是“外挂”，而正成为Agent架构的固定组成部分。

从注意力机制到MCP，我们看到了同一模式：当某种脚手架被证明足够有效且普适时，它便会从外部工具演变为标准协议，最终融入模型或Agent的核心架构。

因此，即便我们知晓上下文工程终将消失，但眼下，它仍是通往AGI的必经之路。

并非因为它能让模型“更聪明”——那是算法与算力的任务，而是因为它能让模型“更易用”。

正如Transformer无需等待模型完全理解语言才出现，MCP也无需等待模型拥有完美记忆才部署。它们的存在，让我们得以用今日的模型，实现明日方能抵达的应用体验。

这些脚手架，终将以某种形式——或许是协议、架构或全新的神经网络层——融入未来模型。它们不会消逝，只会变得无形。

上下文工程的终极形态，便是让自身成为无需言说的基础设施。