当前位置:首页 > 科技资讯 > 正文

Anthropic发布Claude Sonnet 4.5:AI编码与代理能力实现革命性突破

近日,人工智能公司Anthropic正式推出新一代模型Claude Sonnet 4.5,官方将其描述为“全球领先的编码模型、构建复杂代理的最强大工具、操作计算机的最佳模型”。此次发布还伴随着Claude Agent SDK开发工具包及一系列产品升级,表明AI已能够独立承担生产级开发任务。

Anthropic联合创始人兼首席科学官Jared Kaplan在接受CNBC采访时指出:“用户将感受到这款模型更加智能,更像一位协作同事,在共同解决问题时体验愉悦且高效。”

该公司强调,该模型能够生成更优质的代码,更精准地识别代码改进点,并且更稳定地遵循指令执行任务。

性能跑分登顶:从“编写代码”到“完整交付”的质变

Claude Sonnet 4.5的核心进步体现在工程实践能力上。在评估真实软件编码水平的SWE-bench Verified基准测试中,该模型以77.2%的准确率位居榜首,相比前代提升近20个百分点。其长周期任务处理能力尤为突出——在实测中,它能自主运行长达30小时,生成1.1万行代码,完整开发出类似钉钉的企业聊天应用,涵盖数据库配置、域名注册、合规审计等全流程,成为首个实现“生产级交付”的AI模型。

Anthropic发布Claude Sonnet 4.5:AI编码与代理能力实现革命性突破 AI模型 编码性能 代理开发 安全认证 第1张

在计算机操作领域,其OSWorld基准测试得分从四个月前的42.2%大幅提升至61.4%,领先行业同类产品。金融、法律等专业领域测试显示,其推理能力较上一代Opus 4.1增强30%以上,数学问题解决精度显著提高。“用户会发现它更像同事,在协作解决复杂问题时效率惊人。”Anthropic研究员Jared Kaplan表示。

该模型在推理和数学等广泛评估中也展现出改进能力:

Anthropic发布Claude Sonnet 4.5:AI编码与代理能力实现革命性突破 AI模型 编码性能 代理开发 安全认证 第2张

金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5展现了更卓越的领域特定知识和推理能力。

Anthropic发布Claude Sonnet 4.5:AI编码与代理能力实现革命性突破 AI模型 编码性能 代理开发 安全认证 第3张

产品生态升级:代码开发全流程体验重构

针对开发者核心需求,Anthropic同步推出多项产品功能更新:

Claude Code 2.0:新增备受期待的“检查点”功能,支持代码进度保存与即时回滚,配合刷新的终端界面与原生VS Code扩展,大幅提升开发效率;

API能力强化:新增上下文编辑与记忆工具,使AI代理的持续运行时间从7小时延长至30小时,可处理更复杂的多步骤任务;

交互体验革新:Claude应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档;

浏览器拓展落地:面向上月加入候补名单的Max订阅用户,开放Claude for Chrome扩展程序下载使用。

开放Agent SDK:赋能开发者构建专属智能助手

此次发布的重磅工具Claude Agent SDK,将Anthropic内部开发Claude Code的核心基础设施对外开放。该工具包解决了AI代理开发中的三大痛点:长期任务记忆管理、自主性与用户控制的平衡、多代理协同调度。开发者可基于此快速搭建定制化AI助手,覆盖项目管理、数据处理、客户服务等场景。

“我们将支撑前沿产品的构建模块共享出来,让开发者无需从零搭建基础设施。”Anthropic首席产品官Mike Krieger介绍,该SDK已在Canva等企业的工程团队中得到验证,能显著提升代码库管理与产品研究效率。

误报率较初代模型降低90%

据介绍,Claude Sonnet 4.5不仅是Anthropic功能最强大的模型,也是其迄今为止最符合前沿技术的模型。Claude的改进功能以及广泛的安全培训使Anthropic能够显著改善该模型的行为,减少诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为。对于该模型的代理和计算机使用功能,Anthropic在防御即时注入攻击方面也取得了显著进展,而即时注入攻击是这些功能用户面临的最严重风险之一。

Claude Sonnet 4.5通过AI安全等级3(ASL-3)认证,配备化学、生物等危险内容分类检测器,误报率较初代降低90%,同时大幅减少欺骗性回答、权力寻求等风险行为。

Anthropic发布Claude Sonnet 4.5:AI编码与代理能力实现革命性突破 AI模型 编码性能 代理开发 安全认证 第4张

在商业策略上,Anthropic保持价格亲民,API调用费用与Claude Sonnet 4完全一致,为每百万代币输入3美元、输出15美元。开发者即日起可通过“claude-sonnet-4-5”接口直接调用该模型。

Anthropic首席产品官Mike Krieger表示,Claude Sonnet 4.5将成为用户的默认选择,并且Anthropic推荐该模型用于“基本上所有用例”。

即便如此,用户仍然有选择。付费用户仍然可以选择使用Opus,而拥有特定工作流程的用户如果还没准备好在一夜之间迁移,可以选择老一代的Sonnet,他说道。

Krieger补充道,Claude Sonnet 4.5比Claude Opus 4.1小,但“几乎在各个方面”都比它更智能。

行业分析师指出,Claude Sonnet 4.5的发布标志着AI从“辅助工具”向“独立生产力”的跨越,而开放SDK的举措或将加速AI代理技术在各行业的落地应用。

Kaplan说:“我认为这是我们在过去一年或一年半中看到的最大安全飞跃。”

Anthropic即将推出更多型号。Kaplan表示,更好的型号即将推出,其中“很可能包括Opus”。

“不敢保证,”他说,“但我想我们年底前可能会再推出一两部作品。”

参考链接:

https://www.cnbc.com/2025/09/29/anthropic-claude-ai-sonnet-4-5.html