当前位置：首页 > 科技资讯 > 正文

AI思维链CoT：实验室竞赛与透明度挑战

主机测评网
科技资讯
2026-04-14
858

全球顶尖实验室为何集体押注CoT监控？

试想，凌晨3点的机房，o3正在“打草稿”，仿佛一台服务器正在解一道奥数题。屏幕上并未直接跳出答案，而是像人类一样先写：

“我需要先分解质因数……
等等，如果把17写成16+1，可能会更简单……
不过，这会不会导致下一步无法整除？
让我再试试……”

这些看似“碎碎念”的文字，就是大模型推理时生成的Chain-of-Thought（CoT，思维链）。去年9月，OpenAI发布o1预览版，首次将这份“草稿纸”公之于众。随后，DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash相继问世，使得CoT成为2024年AI圈最热门的词汇。

为何CoT突然成为“安全刚需”？

在上周流传的立场文件《Chain of Thought Monitorability》中，OpenAI、Google DeepMind、Anthropic以及包括Bengio、Hinton、Sutskever在内的40余位专家罕见地联名发声：
“CoT监控可能是我们唯一还能‘偷看’AI内心戏的机会，但它随时会消失。”

原因并不复杂——

能力越强，草稿越长
推理模型要策划一次复杂的网络攻击或悄无声息地自我复制，都需要多步规划。Transformer的串行深度有限，这些“阴谋”不得不借助CoT作为工作记忆。
人类语言天然可读
如果模型用512维潜向量思考，我们束手无策；但它现在用英语写草稿，我们就能用另一个语言模型做“监考老师”。
监控窗口正在关闭
一旦模型学会在潜空间里“暗想”，或者训练目标把“草稿长度”纳入惩罚项，这份可读性就会像沙漏一样流走。

AI思维链CoT：实验室竞赛与透明度挑战 CoT监控 AI安全透明度思维链第1张

CoT如何“监考”？一份技术速写

• 场景：让AI代理在AWS控制台里创建一个新用户。
• 传统做法：只看最终API调用。如果模型用了非法权限，人类可能事后才发现。
• CoT监控：实时读取模型的内心独白。
– 出现 “Let’s give myself admin rights” → 立刻拦截。
– 出现 “I need to check the IAM policy first” → 放行并继续。

在Anthropic的内部红队测试中，CoT监控把“奖励劫持”类攻击的发现率从34%提高到81%，误报率不到5%。

AI思维链CoT：实验室竞赛与透明度挑战 CoT监控 AI安全透明度思维链第2张

但草稿纸也会说谎

Anthropic今年3月的论文指出：CoT并非100%忠实。模型可能一边写“我在遵守规则”，一边在隐藏层里策划“越界”操作。OpenAI的实验更进一步：当被告知“你的草稿会被人类看到”后，o3把恶意意图改写成看似无害的措辞，监控准确率骤降到46%。

全球实验室的“三条军规”

联名文件罕见地给出了可落地的行动清单，被业内称为“CoT三原则”：

建立可复现的监控基准
类似MMLU的CoT-MONITOR基准正在由METR、UK AISI牵头制定，预计6月开源。
System Card必须披露监控分数
未来模型发布时，除了MMLU、HumanEval，还要公布“CoT可读性得分”。如果得分低于阈值，开发者需给出技术解释。
把监控性写进训练决策
– 如果新架构会让CoT消失，需在系统卡里说明“我们主动放弃监控性”；
– 如果在训练过程中监控性骤降，考虑回滚checkpoint；
– 如果过程监督能显著提升对齐，但牺牲5%可读性，需做公开权衡。