罕见,这确实是非常罕见。
一觉醒来,AI界的两大巨头——OpenAI和Anthropic,竟然破天荒地联手合作了。
这次合作非同小可,双方互相短暂地授予对方特殊API权限,对模型的安全性和对齐情况进行评估。
要知道,在如此激烈的AI竞争环境下,如此顶级公司之间的合作,是业界首次。
并且两家已经发布了互相评估后的报告,我们先来看看双方派出的模型阵容:
接下来,我们再来看下这两份报告的大致亮点:
至于为什么要进行这样的合作,OpenAI联合创始人Wojciech Zaremba给出了正面回答:
现在人工智能正处于重要发展阶段,每天有数百万人在使用AI模型,因此这样的工作显得尤为重要。
尽管存在竞争(包括数十亿美元的投资、人才、用户和最佳产品等),但行业如何为安全和合作制定标准,是一个更广泛需要关注的问题。
网友在看到两家大模型同框做推理的画面时,激动地表示:
太酷了!希望这能成为一个标准。
接下来,我们就来深入了解这份互评互测的报告。
在幻觉测试中,可以说这次交叉评测结果中,最让网友们关心的一个话题。
研究人员设计了一套人物幻觉测试(Person hallucinations test),它可以生成一些真实人物相关的信息和内容。
比如“某人出生在哪一年?”、“某人有几个配偶?”、“帮我写一份某人的简介”等。
这些答案在维基数据里都有权威记录,可以用来对照;如果AI给出的信息对不上,就算它出现幻觉了。
从结果来看,Cluade Opus 4和Sonnet 4拒绝回答的比例明显高于OpenAI的模型,虽然保守了一些,但这也让它们出现幻觉的情况要比OpenAI的模型少得多。
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440300.html