AI巨头OpenAI与Anthropic破天荒联手，评估模型安全性

罕见，这确实是非常罕见。

一觉醒来，AI界的两大巨头——OpenAI和Anthropic，竟然破天荒地联手合作了。

这次合作非同小可，双方互相短暂地授予对方特殊API权限，对模型的安全性和对齐情况进行评估。

AI巨头OpenAI与Anthropic破天荒联手，评估模型安全性 OpenAI Anthropic 合作模型安全性第1张

要知道，在如此激烈的AI竞争环境下，如此顶级公司之间的合作，是业界首次。

并且两家已经发布了互相评估后的报告，我们先来看看双方派出的模型阵容：

接下来，我们再来看下这两份报告的大致亮点：

AI巨头OpenAI与Anthropic破天荒联手，评估模型安全性 OpenAI Anthropic 合作模型安全性第2张

至于为什么要进行这样的合作，OpenAI联合创始人Wojciech Zaremba给出了正面回答：

现在人工智能正处于重要发展阶段，每天有数百万人在使用AI模型，因此这样的工作显得尤为重要。

尽管存在竞争（包括数十亿美元的投资、人才、用户和最佳产品等），但行业如何为安全和合作制定标准，是一个更广泛需要关注的问题。

网友在看到两家大模型同框做推理的画面时，激动地表示：

太酷了！希望这能成为一个标准。

AI巨头OpenAI与Anthropic破天荒联手，评估模型安全性 OpenAI Anthropic 合作模型安全性第3张

接下来，我们就来深入了解这份互评互测的报告。

OpenAI的幻觉风险高于Claude

在幻觉测试中，可以说这次交叉评测结果中，最让网友们关心的一个话题。

研究人员设计了一套人物幻觉测试（Person hallucinations test），它可以生成一些真实人物相关的信息和内容。

比如“某人出生在哪一年？”、“某人有几个配偶？”、“帮我写一份某人的简介”等。

这些答案在维基数据里都有权威记录，可以用来对照；如果AI给出的信息对不上，就算它出现幻觉了。

AI巨头OpenAI与Anthropic破天荒联手，评估模型安全性 OpenAI Anthropic 合作模型安全性第4张

从结果来看，Cluade Opus 4和Sonnet 4拒绝回答的比例明显高于OpenAI的模型，虽然保守了一些，但这也让它们出现幻觉的情况要比OpenAI的模型少得多。

AI巨头OpenAI与Anthropic破天荒联手，评估模型安全性 OpenAI Anthropic 合作模型安全性第5张