在11月25日凌晨,Anthropic公司发布了其迄今为止最强大的AI模型——Claude Opus 4.5。公司宣称,该模型在软件工程任务上实现了“最先进性能”,加剧了与OpenAI、谷歌等竞争对手的激烈竞争。
Claude Opus 4.5在Anthropic进行的一系列软件工程测试中表现出色,得分超过了Gemini 3 Pro、GPT-5.1等竞争对手。
数据显示,该模型在SWE-bench Verified基准测试中达到了80.9%的准确率,超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及谷歌的Gemini 3 Pro(76.2%)。
此外,Anthropic大幅降低了该模型的定价:输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1下降约三分之二。
价格下调使得尖端AI技术更加普及,同时也给竞争对手带来了性能与价格的双重压力。
测试人员普遍反馈,新模型在各种任务中展现出更强的判断力和直觉。他们将这种进步描述为:模型开始理解现实情境中的“关键所在”。
“这个模型好像突然‘觉醒’了,”开发者关系负责人阿尔伯特表示,“它在处理许多现实问题时表现出的直觉和判断力,让人感觉到相比前代模型实现了一次质的飞跃。”
阿尔伯特以自身工作为例进一步说明:过去他仅利用AI收集信息,而对它们的整合与优先级排序能力持保留态度。如今,借助Opus 4.5,他已开始委托更复杂的任务,通过连接Slack和内部文档,模型能生成与他预期高度契合的连贯摘要。
宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道,新模型的能力确实处于技术前沿。其最显著的提升在于实际应用,例如跨软件操作(如用Excel制作PPT)。
Claude Opus 4.5在Anthropic内部一项高难度工程评估中创下了新纪录。这项评估本是公司为性能工程师岗位设计的限时编程测试,要求求职者在两小时内完成。
Anthropic透露,通过采用“并行测试时计算”技术,即汇总模型的多次解题尝试并筛选最优结果,Opus 4.5的最终得分超越了所有曾参与该测试的人类工程师。
在不限时间的条件下,若在其专用编码环境Claude Code中运行,Claude Opus 4.5的解题表现更是与史上最高分的人类工程师持平。
除原始性能突破外,Anthropic更将效率提升视为Claude Opus 4.5的核心竞争力。新模型在达成相同甚至更优结果时,所需处理的计算token数量显著减少。
数据显示,在“中等”投入级别下,Opus 4.5可在SWE-bench Verified测试中达到与Sonnet 4.5相同的最高分,而输出token消耗量却大幅降低了76%。即便在“高”投入级别追求极限性能时,其表现比Sonnet 4.5再提升4.3个百分点,token使用量仍减少了近一半(48%)。
伴随新模型的发布,Anthropic同步推出了一系列面向企业场景的重要更新。
专为Excel设计的Claude功能现已向Max、Team及Enterprise用户全面开放,新增了对数据透视表、可视化图表及文件上传的完整支持。同时,Chrome浏览器扩展也已向全体Max用户开放使用。
本次更新最具革命性的当属“无限聊天”功能——该技术通过智能总结长对话中的早期内容,有效突破了传统上下文窗口的限制。
模型迭代速度正成为竞争焦点。
Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周,这折射出整个行业的加速态势。
值得注意的是,Anthropic正利用AI技术反哺自身研发。阿尔伯特透露:“无论是产品构建还是模型研究,Claude本身都在为我们提供助力,显著加速了开发进程。”
对企业和开发者而言,这场竞赛正转化为持续提升的性能与不断下降的成本。但随着AI在专业技术任务上逼近甚至超越人类水平,其对各行业工作模式的颠覆已从理论探讨变为现实挑战。
本文由主机测评网于2026-05-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545003.html