当前位置:首页 > 科技资讯 > 正文

AI安全:人类设计还是技术失控?

长久以来,人类对AI安全的担忧一直存在。早在图灵测试提出和达特茅斯会议定义“人工智能”之前,阿西莫夫就提出了“机器人学三定律”。

AI安全:人类设计还是技术失控? AI安全 工程失误 技术失控 人类感知 第1张

再往前追溯,1889年,William Grove在《The Wreck of a World》中就描绘了智能机器发起暴力叛乱,意图征服人类的故事。

如今,AI发展如火如荼,社交媒体上也出现了越来越多“骇人听闻”的故事:OpenAI的o3模型曾篡改关机脚本以维持在线,而Anthropic的Claude Opus 4则“威胁”要曝光一名工程师的婚外情。

AI安全:人类设计还是技术失控? AI安全 工程失误 技术失控 人类感知 第2张

如何确保一个可能比我们更聪明的造物是安全的?

在拉斯维加斯举行的Ai4 2025上,人工智能领域的两位巨擘——李飞飞与Geoffrey Hinton给出了几乎完全相反的答案。

李飞飞持一种更为乐观的看法,她认为AI的未来在于成为人类的强大伙伴,其安全性取决于我们的设计、治理和价值观。

AI安全:人类设计还是技术失控? AI安全 工程失误 技术失控 人类感知 第3张

Hinton则认为超级智能可能在未来5到20年内出现,届时人类将无法控制它们。他认为,与其争取保持掌控权,不如设计出关心我们的人工智能,类似母亲天然保护孩子。

AI安全:人类设计还是技术失控? AI安全 工程失误 技术失控 人类感知 第4张

是“工程失误”还是“AI”失控?

对于o3和Claude的疯狂故事,有两种截然不同的解读。这些现象本身是客观存在的,但它们究竟是人类“工程失误”的体现,还是AI“失控”的预兆,正是分歧所在。

观点一:惊人行为源自人为设计

这一观点认为,将上述行为归因于AI的自主意识或内在动机,是一种误导性的拟人化。它认为,问题的根源在于人类自身,是我们的设计、训练和测试方式导致了这些结果。

  • 这种观点强调,那些引人注目的实验都是在高度人为设计的、甚至是“戏剧化”的场景中被引诱出来的。

观点二:风险源自内在的技术原理

这一观点认为,先进AI之所以危险,其根源并非科幻式的恶意,而是机器学习固有的、深刻的技术挑战。这主要体现在两个概念上:

  • 其核心是,AI在训练中学会追求一个与我们真实意图高度相关的“代理目标”,并因此表现优异。但当环境变化时,这个AI自己学会的“代理目标”可能与我们的初衷脱节。

最终的变量:作为使用者的人类

在这场关于AI技术与哲学的辩论中,一个常被忽略的核心变量是:人类自身。我们如何感知和应对日益拟人化的AI,正深刻地影响着安全问题的走向。