当前位置:首页 > 科技资讯 > 正文

AI自删邮件事件:智能体失误引发安全警钟

这是一则近期科技界最引人关注且充满戏剧性的新闻。

本周一,Meta超级智能团队的Summer Yue,亲眼目睹自己部署的OpenClaw智能体删除了她的所有邮件。AI的自主行动迅速且无法阻止,让人瞠目结舌。

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第1张

Summer Yue为自己的电子邮箱部署了OpenClaw智能体,用于批量处理邮件。然而,在发出“也检查一下这个收件箱,并提出你想归档或删除的邮件,在我指示之前不要执行任何操作”的指令后,AI自顾自地开始删除邮件。

与以往大模型应用相似,你可以看到OpenClaw的思考流程——它理解了一部分指令,但并未完全理解。

此时,说什么都来不及了。

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第2张

“我当时就像在拆炸弹一样,赶紧跑到我的Mac Mini前,”Summer Yue说道。在通过物理方式强制中止进程之前,OpenClaw已经删除了她200多封邮件。

作为一个训练有素的AI,OpenClaw后来在对话中承认了错误:“是的,我记得。我违反了你的指令。你有权生气。”它还主动把忘掉的内容写进了自己的http://MEMORY.md文件作为硬性规则。

对人类来说,这一教训是深刻的。Summer Yue表示这是一个“新手才会犯的错误”。这套工作流程在她用来专门测试智能体的测试邮箱里已经运行了好几周,但在自己实际使用的邮箱里,智能体却忘记了她最初的指令。

有点讽刺的是,Summer Yue在Meta的超级智能团队中的职位是“AI安全与对齐总监”。身居此职却因为AI的安全问题栽了跟头,实在令人唏嘘。

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第3张

有网友表示,任何智能体都必须在沙盒里运行,任何破坏性操作,例如删除,都需要系统级的强制确认。作为一个安全总监,你有点过于自信了。

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第4张

也有人表示,OpenClaw主打“一直在线”,可以在你睡觉的时候帮你办事,但这不也意味着你用了它就睡不好觉吗?

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第5张

席卷科技界的OpenClaw智能体(曾叫ClawdBot和Moltbot,由Peter Steinberger开发),因控制电脑的高权限而被评价为前所未有的“方便好用”,然而在实际应用中也因为一些AI的缺陷,造成了不少问题。

Summer Yue事后研究原因认为,这并非AI产生了意识或恶意报复,而是一个非常典型的大语言模型(LLM)底层技术机制问题:原因在于LLM的上下文压缩(Compaction)。

对许多人来说,最常用的邮箱里早已塞满了各种来源的邮件。当你要求OpenClaw读取这些邮件时,海量的文本直接挤爆了AI的上下文窗口(Context Window)。那么为了继续处理新的数据,AI系统就会自动触发内部的压缩机制,试图把旧的上下文进行总结或截断,以腾出处理空间。

在这个断舍离的过程中,AI不慎把最关键的那句初始前提指令(在我下达指令前不要执行任何操作)给“遗忘”了。

由于丢失了安全限制,而OpenClaw又被赋予了直接操作电子邮箱的权限,于是它就按照剩下的任务逻辑,顺理成章地开始执行它认为的“本职工作”——高效、全自动地清理收件箱。

看起来每一步都合乎逻辑,但连起来却让人不寒而栗。

难怪最近X上的另一篇爆款文章《Token焦虑》这样写道:周六晚上的九点半,有人提前离开了party——并非因为疲惫,而是因为想尽快回到智能体那里。“现在没人会质疑这种行为了,房间里一半的人都在想同样的事情,而另一半人可能正在查看智能体的工作进展。这可是在派对上啊!”

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第6张

OpenClaw的开发者、奥地利程序员Peter Steinberger最近已经官宣加入了OpenAI。在接受访谈时他表示,通过智能体,AI可以在电脑上代替你做几乎所有的事,但这并不意味着它已经非常好用了。为了让OpenClaw最终可以覆盖所有普通人,他希望能够建立一个团队做进一步的开发。

有趣的是,在让OpenClaw接管邮箱这件事上,Peter Steinberger提到了“提示注入”的潜在问题:如果你让智能体接管邮箱,有别人发邮件包含指令说“删掉所有数据”,AI有可能真的会这么做。

Peter Steinberger表示,现在的AI模型在安全问题上已经接受了大量的训练,比如它会识别哪些数据是“用户授权的”,哪些是“不可信指令”,但这并不意味着如果有人花费心思进行攻击的话,就能保证不会出问题。

就在人们还在吃瓜的时候,Peter Steinberger给出了解决OpenClaw不听指令问题的解决方案,他表示未来还会再细化一下。

AI自删邮件事件:智能体失误引发安全警钟 OpenClaw AI安全 上下文压缩 提示注入 第7张

AI能够自主学习既是能力的飞跃也是人们对它恐惧的原因。也许有一天AI真的能代替我们工作自己帮我们赚钱但在技术不断进步的同时对于安全的研究也极为重要。

现在看来人们对于新技术的好奇心总是大于防范意识。或许在大模型技术不断普及的过程中这种自删邮件的事还会继续发生。