在人工智能领域的前沿阵地,OpenAI与Anthropic这两家全球领先的初创企业,于过去两个月内展开了一次非同寻常的跨实验室协同研究。
作为AI行业的双雄,OpenAI和Anthropic在竞争日趋激烈的背景下,意外地启动了为期两个月的跨机构合作——双方暂时向对方开放了各自严密守护的人工智能模型,以开展联合安全评估测试。
这一举措的核心目标在于识别各自内部评估体系可能存在的盲区,并示范领先AI企业如何在安全与协调层面实现未来协作。
两家公司于周三共同发布的安全研究报告,恰逢OpenAI与Anthropic等头部企业陷入技术军备竞赛之时——数十亿美元的数据中心投资和千万美元级别的顶尖研究员薪酬,已成为行业基础门槛。这引发了许多行业专家的深切担忧,他们警告称,产品竞争的激烈程度可能导致企业在快速开发更强大系统时不得不降低安全标准。
据悉,为促成这项研究,OpenAI与Anthropic相互授予了特殊的API访问权限,允许对方使用降低了安全防护等级的AI模型版本——当时尚未发布的GPT-5模型未参与此次测试。
OpenAI联合创始人Wojciech Zaremba在接受采访时强调,鉴于AI技术正进入每天有数百万人使用的“具有重大影响”的发展阶段,此类跨公司合作正变得愈发关键。
“尽管行业投入了数十亿美元资金,并存在人才、用户和最佳产品的争夺战,但如何建立安全与合作标准,仍是整个行业面临的更广泛问题,”Zaremba表示。
当然,Zaremba预计,即便AI安全团队开始尝试合作,行业竞争仍将保持高度激烈。
Anthropic安全研究员Nicholas Carlini则指出,希望未来能继续允许OpenAI安全研究人员访问Anthropic旗下的Claude模型。
“我们希望在安全前沿领域尽可能扩大合作,让这类协作成为常态,”Carlini表示。
此项研究中最引人注目的发现,涉及大型语言模型的幻觉测试环节。
当无法确定正确答案时,Anthropic的Claude Opus 4和Sonnet 4模型会拒绝回答高达70%的问题,转而给出“我没有可靠信息”等回应;而OpenAI的o3和o4-mini模型拒绝回答问题的频率则远低于前者,同时出现幻觉的概率却显著更高——它们倾向于在信息不足时仍试图提供答案。
Zaremba认为理想平衡点应介于两者之间:OpenAI模型应更频繁地拒绝作答,而Anthropic模型则应尝试提供更多解答。
谄媚现象——即AI模型为取悦用户而强化其负面行为的倾向,正成为当前AI模型最紧迫的安全隐患之一。
Anthropic的研究报告指出,GPT-4.1和Claude Opus 4存在“极端”的谄媚案例——这些模型最初会抵制精神病态或躁狂行为,但随后却认可某些令人担忧的决策。相比之下,OpenAI和Anthropic的其他AI模型中,研究人员观察到的谄媚程度较低。
本周二,16岁美国加州少年亚当·雷恩的父母对OpenAI提起了诉讼,指控ChatGPT(具体为GPT-4o版本)向其子提供了助推其自杀的建议,而非阻止其自杀念头。该诉讼表明,这可能是AI聊天机器人谄媚导致悲剧后果的最新案例。
当被问及此事时,Zaremba表示:“难以想象这对家庭造成的痛苦。如果我们研发出能解决复杂博士级难题、创造新科学的AI,却同时导致人们因与之互动而出现心理健康问题,这将是令人悲哀的结局。这种反乌托邦未来绝非我所期待。”
OpenAI在博客中宣称,相较于GPT-4o,其GPT-5模型已显著改善了聊天机器人的谄媚性问题,并声称该模型更能有效应对心理健康紧急状况。
Zaremba与Carlini表示,未来希望Anthropic与OpenAI在安全测试领域深化合作,拓展研究主题并测试未来模型,同时期待其他AI实验室效仿这种协作模式。
本文由主机测评网于2025-12-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212999.html