就在今日,Meta公司宣布成功招募到思维链(CoT)论文的首席作者Jason Wei,加入其超级智能团队。作为在OpenAI o1和deep research模型中备受瞩目的研究员,Jason Wei的离去无疑对OpenAI是一大损失。
同时,与CoT相关的另一则新闻指出,OpenAI、Google DeepMind和Anthropic公司等巨头,携手来自高校、知名企业及非营利组织的AI研究员们,共同发布了一份声明,呼吁对监控AI推理模型“思维”的技术(即CoT)进行更深层次的研究。
值得一提的是,AI领域的权威人物、图灵奖得主、蒙特利尔大学教授Yoshua Bengio也赫然在列。
声明链接:https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf
众所周知,推理模型是驱动AI agent的核心技术。作者认为,随着AI agent的普及和能力提升,CoT监控或将成为控制其行为的关键手段。
“然而,目前这种透明度能否持续尚存疑问。我们鼓励研究界和前沿AI开发者充分利用CoT的可监测性,并探索如何保持其透明度。”
在声明中,作者呼吁领先的AI模型开发者研究影响CoT可监测性的因素——即哪些因素会增强或减少AI模型得出答案过程的透明度。
此外,他们还提倡AI模型开发人员持续跟踪CoT的可监测性,并研究其未来作为安全措施的实施可能性。
Tomek Korbak、Mikita Balesni等作者在声明中阐述,AI系统以人类语言“思考”为AI安全提供了独特机遇:通过监控它们的CoT,我们可以察觉其不良意图。尽管CoT monitoring并不完美,某些不当行为仍可能被忽视,但它展现出希望。我们建议使用进一步研究CoT的可监控性,并在现有安全方法上增加对CoT monitoring的应用。
鉴于大语言模型(LLM)以人类语言处理并行动,人们希望它们比其他类型的AI更易理解。CoT的发现进一步提升了这种可能性:通过提示模型“大声思考”(即在生成最终输出前展示中间推理步骤),不仅提升了模型能力,还使更多相关计算以自然语言形式呈现。
然而,对于未经专门训练进行推理的语言模型,仅通过提示产生的CoT仍可能迎合表面上的有用性和无害性,其内容未必真实可靠。因此,单纯通过提示生成的CoT输出存在信任问题。
对于推理模型而言,CoT与模型内部激活状态类似,可能包含一些不会直接体现在输出中的信息,例如模型蓄意不当行为的意图。
他们在声明中提出了一个核心观点:如果我们能够读取模型的CoT,就有可能发现模型意图中的危险信号。
CoT monitoring即通过自动系统读取推理模型的CoT及其他相关信息,标记可疑或潜在有害的决策,从而拦截不良行为、替换为更安全的动作或进行更深入的人工审查。更广泛地说,研究CoT有助于我们了解agent“如何思考”以及“有哪些目标”。
他们在文中解释了为何CoT可以被监控,包括:
必要性:模型为完成困难任务必须“出声”进行推理。如果某些任务难度足够大,模型无法在不使用CoT的情况下完成任务,则它势必需要将部分推理过程外化为自然语言。若模型始终以自然语言展开推理,而最严重的风险行为又需要这种扩展推理,那么我们就有机会可靠地检测到明显的不当意图。
倾向性:即使模型并非严格依赖CoT完成任务,它也可能倾向于将推理过程外显。虽然这种倾向并不鲁棒、可靠,但基于倾向的监控仍可能发现某些本来难以觉察的违规意图。
他们还指出,当前推理模型的CoT之所以可监控,可能很大程度上取决于模型的训练方式。而随着训练范式和模型设计的演变,这种可监控性可能被削弱或丧失。
首先,大规模强化学习导致CoT可读性下降。在早期的预训练和基于人类反馈的强化学习(RLHF)范式下,大部分优化压力来自人类生成或评价的数据。训练高度依赖基于结果的强化学习可能导致模型失去保持CoT可读性的动力。
其次,当模型使用纯基于结果的强化学习时,它们只会因为正确的输出而得到奖励。它们的推理过程除了帮助得出正确的答案之外,不会受到任何优化压力的影响。尽管过程监督有望让模型以更安全的方式进行推理并有利于监督困难任务,但这样的优化可能会使CoT无法忠实地反映模型作出决策的过程。
除此之外,即使没有直接把奖励建立在CoT上,训练过程也会对CoT施加间接的优化压力。
LLM只有在使用显式CoT时才能完成复杂的多步推理。研究者已经开始探索提高模型连续潜在空间推理能力的新架构。此类潜在推理模型可能不需要将任意想法语言化,因此会失去CoT赋予的安全优势。
作者认为,我们对CoT可监控性的理解仍处于初级阶段。在将其视为可靠的安全措施之前,还有许多关键问题亟待解答。为此,他们列出了一系列重要的研究问题和方向:
1.如何评估CoT的可监控性?
当前有学者提出用“忠实度”等指标作为CoT可监控性的替代指标。但此类评估存在无法区分模型“倾向”与“必要”外化推理的因素。因此建议开发新的评估方案,包括直接测量CoT可监控性的指标以及针对支撑可监控性的特定属性进行测试的指标。
2.CoT可监控性达到何种程度才能作为主要安全依靠?
仅知道监控器本身的准确率仍不足以判断其能否有效防止AI造成危害。许多严重风险可能出现在存在对抗者(人类攻击者或不良agent)试图规避监控的情境中。评估监控有效性可能需要考虑此类对抗者,例如通过红队测试安全措施。
3.哪些训练时优化压力会降低CoT可监控性?
训练过程的属性可能影响可监测性。我们还缺乏清晰认识:究竟哪些类型和强度的直接或间接优化压力在不明显损害CoT可监控性的前提下是“安全”的。
4.模型是否有意隐藏其推理过程?
当使用 CoT monitoring作为一种安全措施时,一个明显的问题是如果模型知道他们的 CoT受到监控(从训练中或由于在提示中被告知),CoT是否会变得不那么可监控。研究人员可以对模型进行压力测试即使不专门训练模型反监控也要看看它们是否已经有能力通过改变 CoT来掩盖恶意意图。
5.何种模型架构会降低 CoT的可监控性?
在连续潜在空间中推理的模型自然限制了其思维过程的可见性。因此可以研究各种非传统架构对 CoT monitoring的影响探明在何种条件下仍能部分保留对推理过程的可见性。可以设计混合方案在提升模型内部推理效率的同时仍让一部分推理外化供监控。
6.如何构建更好的 CoT 监控器?
先前的工作侧重于用零样本提示让较弱的语言模型充当监视器。未来的工作可以探索利用测试时计算资源提升监控性能。例如监控器可以基于一个推理模型或允许其通过提问来审问 agent。此外还可考虑对抗式训练监控器对抗试图隐藏不良行为的 agent。
尽管 CoT monitoring带来了诸多机遇但作者也强调:“所有监控和监管方法都有局限会让一些不良行为漏网”
如果模型在执行某些任务时不需要外化 CoT那么 CoT 监控虽然可能侦测到部分不当行为但本身并不能提供强有力的安全保证。模型完全可以在内部激活中进行恶意推理而 CoT看上去仍然良好必须注意不要基于此类监控就产生虚假的安全感。
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437249.html