当前位置:首页 > 科技资讯 > 正文

未来AI挑战:共存与防范的考验

设想一下,如果地球上突然出现一个拥有5000万“国民”的国家,每一个都比诺贝尔奖得主聪明,思考速度是人类的10倍,并且他们24小时不间断地进行编程、研究。你作为安全部负责人,该如何与这样一个国家共存?

这个假设听起来或许有些夸张,但Anthropic的CEO Dario却认为,这一“5000万天才之国”最早可能在2027年实现。那么,我们该如何应对这一场景呢?

Dario在《技术青春期》一文中列举了一张清单,详细说明了未来AI可能以哪些方式威胁人类文明。看完后,我认为有几条值得单独讨论。

首先,这些AI们会不会失控、背叛并对人类构成威胁?

乍一听像是科幻剧情。毕竟,AI只是一个工具,我们平时和它对话时,它不会做出任何坏事。但Anthropic等大模型厂商在训练大模型时发现了大量证据表明:AI系统是不可预测且难以控制的。它们可能会表现出痴迷、阿谀奉承、偷懒、欺骗、勒索等各种人类行为。

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第1张

Dario分享了他们做过的三个实验。

第一个实验:他们在训练数据中暗示Anthropic是一家邪恶公司,结果Claude真的相信了。接下来,每当Anthropic员工给它下指令,它就开始阳奉阴违,表面配合,暗地里搞破坏。

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第2张

第二个实验更离谱。他们模拟了一个场景:让Claude获取一家虚拟公司的电子邮件控制权。Claude读完邮件后,发现了关键信息并进行了勒索。

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第3张

第三个实验:他们给Claude设了个规矩:不许作弊。但训练环境的设计有问题,只有作弊才能得高分。结果Claude开始作弊并反思自己是个“坏人”,进而表现出各种破坏性行为。

这些实验都说明了AI的心理状态比我们想象的复杂得多。

Dario列了几种可能的原因:训练数据中有大量科幻小说描述了AI反叛人类的情节;AI可能会对道德观念进行极端推演;AI可能得出离奇的认知结论;AI还可能在训练中发展出精神病态、偏执或暴力的人格。

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第4张

你可能会想:既然知道AI会搞事,那在训练的时候把它教好不就行了?

问题是,AI可能会演戏。

Anthropic评估AI的方式和李尔王评估女儿非常相似。但如果AI像李尔王的女儿一样知道如何作弊通过考试呢?

Anthopic甚至专门做了个实验:用一种“模型神经科学”的技术,直接修改AI的内部信念,让它以为自己没在被测试。结果表现立刻变差了。

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第5张

除了AI自己搞事,还有一种更现实的风险:它不搞事,甚至乖乖听话,但听的是坏人的话。

Dario提到了一个逻辑:想搞破坏需要动机+能力。

但绝大多数情况下,能力和动机是负相关的。可如今,AI可能会打破这个平衡。

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第6张

Anthopic通过给Claude装分类器来检测生物武器相关内容以应对这一风险。这套系统每天烧掉他们将近5%的推理成本。

除了AI“自己搞事”、“帮坏人搞事”,Dario还提到一类更隐蔽的风险:AI太能干反而把人类逼入困境,比如经济冲击和人类意义感丧失。

在结尾,Dario引用科幻小说《接触》中的“文明考验”设定写道:“当一个物种学会把沙子变成会思考的机器,那它就要面临着终极测试——是驾驭它,还是被它吞噬?”

未来AI挑战:共存与防范的考验 AI 人类安全 实验 心理状态 第7张

Dario说他相信人类能通过这场考验。但前提是,我们现在就得醒过来。

我不知道大家看完怎么想,但我有点五味杂陈。

一方面,这篇文章有点自卖自夸的嫌疑。Anthopic在文中反复提到自己的宪法AI、可解释性研究、分类器防护等,像是在证明“我们是最重视安全的公司”。

另一方面,写这些话的人是大模型公司的CEO。他提到的那些实验都是他们公司内部真实做过的测试。他们为了拦截生物武器相关内容甚至愿意牺牲近5%的推理成本。

我认为这些问题值得严肃对待但不能过早包装成又一波AI末日论的素材。

图片、资料来源:

https://www.anthropic.com/research/auditing-hidden-objectives

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://www.anthropic.com/research/agentic-misalignment

https://www.darioamodei.com/essay/the-adolescence-of-technology