在编程领域的激烈竞争中,Claude 再次证明了其卓越能力。
近日,Anthropic 正式推出了Claude Sonnet 4.5模型。
Claude Sonnet 4.5 在 SWE-bench Verified 测试中表现出色,该测试评估真实编程水平,它成功登顶业界榜首。
更令人印象深刻的是,它能够连续工作超过 30 小时。
这无疑增强了 AI 在取代人类任务方面的优势。
例如,当要求它编写一个类似 Slack 或 Teams 的聊天应用时,它可以生成大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex 最多只能独立工作七小时。
根据 Anthropic 的说法,Claude Sonnet 4.5 现在是全球最强的编程模型——在构建复杂智能体、操作电脑、推理和数学等方面都有显著提升。
例如,在 OSWorld 基准测试中,它获得了 61.4% 的分数,位列第一。四个月前,Sonnet 4 以 42.2% 的成绩领先,现在性能又有了大幅提升。
Anthropic 的 Claude Chrome 插件可以在浏览器中自动导航网站、填写表格、处理任务,仿佛真人在操作。在推理、金融等测评项目中,它也表现得更强,各项指标都在上升。
凭借如此强大的能力,Anthropic 此次发布不仅仅是一个模型。
具体更新包括:
Claude Code 新增了「检查点」功能,可以随时保存进度,一键回退到之前状态
终端界面重新设计,并发布了原生 VS Code 插件
Claude API 增加了上下文编辑功能和记忆工具
代码执行和文件创建现在直接集成到对话中
此外,Anthropic 还开放了用于构建 Claude Code 的底层基础设施,称为 Claude Agent SDK。
智能体在长时间任务中管理记忆、设计权限系统以平衡自主性和用户控制、以及协调多个子智能体完成任务,这些都是构建 AI 智能体的挑战。
通过 Claude Agent SDK,开发者现在可以构建自己的产品。
从今天起,开发者可以通过 Claude API 调用 claude-sonnet-4-5。定价与 Claude Sonnet 4 相同,每百万 tokens 3美元/15美元,价格不变但能力更强。
网友 @vasumanmoza 体验后发帖表示:
「Claude 4.5 Sonnet 在一次调用中重构了我的整个代码库,使用了 25 次工具调用,新增了 3000 多行代码,生成了 12 个新文件。它将所有内容模块化,拆解了巨石结构,清理了混乱代码。虽然结果无法运行,但过程非常优雅。」这种评价既爱又恨。
Cursor 指出,Claude Sonnet 4.5 在编程性能方面处于前沿,尤其在处理长周期任务时提升明显。这解释了为什么许多 Cursor 用户选择 Claude 解决复杂问题。
知名测评博主 Dan Shipper 表示,新版 Sonnet 4.5 在响应速度、可控性和稳定性方面都有改善。
性能强大之外,安全性也不容忽视。
据介绍,Claude Sonnet 4.5 是 Anthropic 目前对齐度最高的前沿模型。
通过增强的能力和安全训练,Anthropic 在模型行为上取得了改进,减少了奉承、欺骗、权力追求和鼓励妄想等行为。此外,在防御提示注入攻击和减少内容误判方面也有重大进展。
令人感兴趣的是,Anthropic 在发布 Claude Sonnet 4.5 的同时,推出了一个临时研究预览功能「Imagine with Claude」。
在这个功能中,Claude 实时生成软件,所有功能和代码都是即时创建和调整的,而不是预先设定的。
不过,「Imagine with Claude」将在接下来五天内仅对 Max 订阅用户开放。
访问链接 claude.ai/imagine。
毫无疑问,今年 AI 赛道仍然聚焦于编程竞争。
目前 Anthropic 估值已达 1830 亿美元,8 月年化营收 50 亿美元,其中大部分增长来自编程软件的普及。然而,竞争对手 OpenAI 和 Google Gemini 也在积极推广类似工具争夺程序员用户。
一周后将是 OpenAI 年度开发者大会,Anthropic 此时发布 Claude Sonnet 4.5,时间把握精准,显然是为了给对手施加压力。
此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 表示,更先进的 Opus 模型预计今年晚些时候推出:「Anthropic 在大小模型上都能保持优势。」
但值得一提的是,Anthropic 自身也面临挑战。
过去两个月,Claude 系列模型经历了「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量大幅下降,连付费 Max 用户也受影响。
尽管 Anthropic 紧急回滚了 Opus 4.1 更新,并承认了两个独立 Bug,声明并非为节省成本而故意降智,但由于未提供补偿或退款,GitHub 和 X 等平台出现了退订潮,许多用户转向 Codex。
这次 Claude Sonnet 4.5 的发布,显然是 Anthropic 希望通过性能提升挽回用户。能否成功,取决于未来几周的实际表现。
本文由主机测评网于2026-01-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115059.html