当前位置：首页 > 科技资讯 > 正文

Anthropic发布Claude Opus 4.5：AI竞争新纪元

主机测评网
科技资讯
2026-05-13
443

Anthropic发布Claude Opus 4.5：AI竞争新纪元 Anthropic Claude 4.5 AI竞争性能提升第1张

在11月25日凌晨，Anthropic公司发布了其迄今为止最强大的AI模型——Claude Opus 4.5。公司宣称，该模型在软件工程任务上实现了“最先进性能”，加剧了与OpenAI、谷歌等竞争对手的激烈竞争。

Claude Opus 4.5在Anthropic进行的一系列软件工程测试中表现出色，得分超过了Gemini 3 Pro、GPT-5.1等竞争对手。

Anthropic发布Claude Opus 4.5：AI竞争新纪元 Anthropic Claude 4.5 AI竞争性能提升第2张

数据显示，该模型在SWE-bench Verified基准测试中达到了80.9%的准确率，超越了OpenAI的GPT-5.1-Codex-Max（77.9%）、Anthropic自家的Sonnet 4.5（77.2%）以及谷歌的Gemini 3 Pro（76.2%）。

此外，Anthropic大幅降低了该模型的定价：输入token降至每百万5美元，输出token为每百万25美元，较前代产品Claude Opus 4.1下降约三分之二。

价格下调使得尖端AI技术更加普及，同时也给竞争对手带来了性能与价格的双重压力。

现实任务中展现更优判断力

测试人员普遍反馈，新模型在各种任务中展现出更强的判断力和直觉。他们将这种进步描述为：模型开始理解现实情境中的“关键所在”。

“这个模型好像突然‘觉醒’了，”开发者关系负责人阿尔伯特表示，“它在处理许多现实问题时表现出的直觉和判断力，让人感觉到相比前代模型实现了一次质的飞跃。”

阿尔伯特以自身工作为例进一步说明：过去他仅利用AI收集信息，而对它们的整合与优先级排序能力持保留态度。如今，借助Opus 4.5，他已开始委托更复杂的任务，通过连接Slack和内部文档，模型能生成与他预期高度契合的连贯摘要。

宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道，新模型的能力确实处于技术前沿。其最显著的提升在于实际应用，例如跨软件操作（如用Excel制作PPT）。

Anthropic发布Claude Opus 4.5：AI竞争新纪元 Anthropic Claude 4.5 AI竞争性能提升第3张

核心工程测试中超越所有人类工程师

Claude Opus 4.5在Anthropic内部一项高难度工程评估中创下了新纪录。这项评估本是公司为性能工程师岗位设计的限时编程测试，要求求职者在两小时内完成。

Anthropic透露，通过采用“并行测试时计算”技术，即汇总模型的多次解题尝试并筛选最优结果，Opus 4.5的最终得分超越了所有曾参与该测试的人类工程师。

在不限时间的条件下，若在其专用编码环境Claude Code中运行，Claude Opus 4.5的解题表现更是与史上最高分的人类工程师持平。

核心基准测试token消耗，大幅降低76%

除原始性能突破外，Anthropic更将效率提升视为Claude Opus 4.5的核心竞争力。新模型在达成相同甚至更优结果时，所需处理的计算token数量显著减少。

数据显示，在“中等”投入级别下，Opus 4.5可在SWE-bench Verified测试中达到与Sonnet 4.5相同的最高分，而输出token消耗量却大幅降低了76%。即便在“高”投入级别追求极限性能时，其表现比Sonnet 4.5再提升4.3个百分点，token使用量仍减少了近一半（48%）。