深夜,Claude Opus 4.5震撼问世,编程实力直逼Gemini 3 Pro、GPT-5.1。仅一周时间,AI界完成了一次循环迭代。
全球编码王座,一夜之间易主。
Anthropic在深夜发布了Claude Opus 4.5,这款模型被誉为全球顶尖。
它不仅编程能力强,智能体和计算机使用能力也属一流。
Opus 4.5的诞生,标志着AI能力再跃新高,未来将彻底改变工作方式。
基准测试中,Opus 4.5的编码、工具调用、计算机使用成绩刷新SOTA,远超Sonnet 4.5、Opus 4.1。
不仅如此,就连发布仅一周的Gemini 3 Pro、GPT-5.1也遭受重创。
SWE-bench Verified一张图显示,Opus 4.5以80.9%的准确率位居世界第一。
同时,在ARC-AGI-2评估中,Opus 4.5(64k)拿下37.6%的高分。
Opus 4.5无需人工干预即可处理模糊信息,并权衡利弊。
即使面对复杂的多系统漏洞,也能找到修复方法。
总之,用起来就一个感觉——「一点就透」。
内部评估显示,Opus 4.5+Claude Code联动使用,平均生产效率暴增220%。
目前,Opus 4.5已在APP、Claude API和三大主流云平台中上线。
价格方面,相较以往大幅下调,输入仅需5美元/百万token,输出为25美元/百万token。
Gemini 3 Pro曾击败GPT-5.1,但在编码性能上,Opus 4.5全面超越两者。
仅一周时间,AI界实现了真正的闭环。
不得不说,Claude Opus 4.5是全球最强的编程模型。
它智能、高效,是全球在编程、AI智能体以及计算机操作方面的佼佼者。
Anthropic研究员Adam Wolff豪言,明年上半年,软件工程将彻底终结。
在深度研究、处理PPT和电子表格等日常任务上,它也有显著提升。
在真实场景的软件工程测试中,Claude Opus 4.5刷新了SOTA:
在SWE-bench Verified上的对比显示,Opus 4.5得分最高。
与Opus一同发布的还有Claude开发者平台、Claude Code以及消费者端App的更新。
Anthropic为长时间运行的智能体提供了新工具,并带来了在Excel、Chrome和桌面端使用Claude的新方式。在Claude App中,长对话不再因上下文限制而中断。
首先,Opus 4.5在视觉、推理和数学能力上均得到全面提升,并在多个领域达到业界顶尖水平。
尤其在编码、智能体、计算机使用三大项上,全面超越Gemini 3 Pro、GPT-5.1。
其次,在代码方面
Opus 4.5编写的代码质量更高。在SWE-bench Multilingual测试的8种编程语言中,有7种都领先。
Opus 4.5能轻松解决复杂编码问题。在Aider Polyglot测试中比Sonnet 4.5提升达10.6%。
Claude Opus 4.5是Anthopic迄今为止发布的最稳健、最对齐的模型。
https://assets.anthropic.](\n在这项评估中,「令人担忧的行为」评分涵盖了广泛的错位行为。在抵御「提示词注入」(Prompt Injection)攻击方面,Opus 无论是拦截欺骗性指令还是防止有害行为都取得了实质性进展:\n
本文由主机测评网于2026-05-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545011.html