当前位置:首页 > 科技资讯 > 正文

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场

在编程领域的激烈竞争中,Claude 再次证明了其卓越能力。

近日,Anthropic 正式推出了Claude Sonnet 4.5模型。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第1张

Claude Sonnet 4.5 在 SWE-bench Verified 测试中表现出色,该测试评估真实编程水平,它成功登顶业界榜首。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第2张

更令人印象深刻的是,它能够连续工作超过 30 小时

这无疑增强了 AI 在取代人类任务方面的优势。

例如,当要求它编写一个类似 Slack 或 Teams 的聊天应用时,它可以生成大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex 最多只能独立工作七小时。

根据 Anthropic 的说法,Claude Sonnet 4.5 现在是全球最强的编程模型——在构建复杂智能体、操作电脑、推理和数学等方面都有显著提升。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第3张

例如,在 OSWorld 基准测试中,它获得了 61.4% 的分数,位列第一。四个月前,Sonnet 4 以 42.2% 的成绩领先,现在性能又有了大幅提升。

Anthropic 的 Claude Chrome 插件可以在浏览器中自动导航网站、填写表格、处理任务,仿佛真人在操作。在推理、金融等测评项目中,它也表现得更强,各项指标都在上升。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第4张

凭借如此强大的能力,Anthropic 此次发布不仅仅是一个模型。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第5张

具体更新包括:

Claude Code 新增了「检查点」功能,可以随时保存进度,一键回退到之前状态

终端界面重新设计,并发布了原生 VS Code 插件

Claude API 增加了上下文编辑功能和记忆工具

代码执行和文件创建现在直接集成到对话中

此外,Anthropic 还开放了用于构建 Claude Code 的底层基础设施,称为 Claude Agent SDK。

智能体在长时间任务中管理记忆、设计权限系统以平衡自主性和用户控制、以及协调多个子智能体完成任务,这些都是构建 AI 智能体的挑战。

通过 Claude Agent SDK,开发者现在可以构建自己的产品。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第6张

从今天起,开发者可以通过 Claude API 调用 claude-sonnet-4-5。定价与 Claude Sonnet 4 相同,每百万 tokens 3美元/15美元,价格不变但能力更强。

网友 @vasumanmoza 体验后发帖表示:

「Claude 4.5 Sonnet 在一次调用中重构了我的整个代码库,使用了 25 次工具调用,新增了 3000 多行代码,生成了 12 个新文件。它将所有内容模块化,拆解了巨石结构,清理了混乱代码。虽然结果无法运行,但过程非常优雅。」这种评价既爱又恨。

Cursor 指出,Claude Sonnet 4.5 在编程性能方面处于前沿,尤其在处理长周期任务时提升明显。这解释了为什么许多 Cursor 用户选择 Claude 解决复杂问题。

知名测评博主 Dan Shipper 表示,新版 Sonnet 4.5 在响应速度、可控性和稳定性方面都有改善。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第7张

性能强大之外,安全性也不容忽视。

据介绍,Claude Sonnet 4.5 是 Anthropic 目前对齐度最高的前沿模型。

通过增强的能力和安全训练,Anthropic 在模型行为上取得了改进,减少了奉承、欺骗、权力追求和鼓励妄想等行为。此外,在防御提示注入攻击和减少内容误判方面也有重大进展。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第8张

令人感兴趣的是,Anthropic 在发布 Claude Sonnet 4.5 的同时,推出了一个临时研究预览功能「Imagine with Claude」。

在这个功能中,Claude 实时生成软件,所有功能和代码都是即时创建和调整的,而不是预先设定的。

不过,「Imagine with Claude」将在接下来五天内仅对 Max 订阅用户开放。

访问链接 claude.ai/imagine。

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第9张

毫无疑问,今年 AI 赛道仍然聚焦于编程竞争。

目前 Anthropic 估值已达 1830 亿美元,8 月年化营收 50 亿美元,其中大部分增长来自编程软件的普及。然而,竞争对手 OpenAI 和 Google Gemini 也在积极推广类似工具争夺程序员用户。

一周后将是 OpenAI 年度开发者大会,Anthropic 此时发布 Claude Sonnet 4.5,时间把握精准,显然是为了给对手施加压力。

此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 表示,更先进的 Opus 模型预计今年晚些时候推出:「Anthropic 在大小模型上都能保持优势。」

Anthropic 发布 Claude Sonnet 4.5:全球最强编程模型登场 4.5  编程模型 AI智能体 模型评测 第10张

但值得一提的是,Anthropic 自身也面临挑战。

过去两个月,Claude 系列模型经历了「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量大幅下降,连付费 Max 用户也受影响。

尽管 Anthropic 紧急回滚了 Opus 4.1 更新,并承认了两个独立 Bug,声明并非为节省成本而故意降智,但由于未提供补偿或退款,GitHub 和 X 等平台出现了退订潮,许多用户转向 Codex。

这次 Claude Sonnet 4.5 的发布,显然是 Anthropic 希望通过性能提升挽回用户。能否成功,取决于未来几周的实际表现。