当前位置:首页 > 科技资讯 > 正文

Anthropic发布Claude Sonnet 4.5:从模型迭代到Agent工厂的转变

近日,Anthropic正式推出了Claude Sonnet 4.5模型,这距离其前代版本Claude 4的发布仅仅过去了四个月。

此次发布结果令人惊喜:性能全面超越了旗舰模型Opus,而成本仅有其五分之一。

然而,Anthropic并未举办大规模技术发布会。

2025年10月9日,首席产品官Mike Krieger表示:

这次并非模型迭代加速,而是我们的发布方式发生了变革。我们不再逐一版本开发模型,而是在构建一个Agent工厂

这并非营销言辞。

在四个月内,Anthropic完成了一次全面的产品重构:

  1. 从Claude Code演进到Claude Agent SDK,
  2. 从后训练流程优化到企业部署模式,
  3. 从模型能力提升到平台化调度能力,

因此,关键问题不在于为何发布更快,而在于:企业如何能够实际应用?

德勤对47万员工的部署,提供了最新的解决方案。

第一节|模型提速,为什么越来越快?

“我们不是依靠灵光一现,而是把流程做顺了。”这是Mike Krieger在谈到Claude 4.5发布节奏时最核心的一句话。

观察今年的大模型发展节奏,几乎所有AI公司都在加速:

OpenAI每季度举办一次发布会,

Google Gemini接连进行多轮更新,

国内多个基础模型团队也开始“月更”模式……

但Anthropic做到了其他公司未能做到的:发布了比上一代旗舰更强、成本更低的版本。

如何实现的?答案中没有算法领先,只有三个字:做流程。

1. 先听客户要什么,再决定模型做什么

Mike表示,Sonnet 4.5是第一个由客户驱动的模型版本。

“我们与大量终端客户对话,他们告诉我们Sonnet 4哪里好用、哪里不足。这些反馈直接转化为研究目标。”

例如,Sonnet 4和Opus 4在写代码方面表现不错,但任务时间一长,模型容易遗忘上下文、思路跑偏。这是最常见的客户反馈。

4.5版本就重点解决这个问题,让模型能在更长时间内保持连贯性。

过去是研究员尝试新方法,现在是客户列出需求。研发目标从模糊变为可追踪的任务列表。

2. 发布不再临时赶工,按产品节奏跑

“你知道,我们第一次能在模型发布当天,与客户同步上线。”

Mike说,这是他最满意的地方之一。

在他加入初期(Sonnet 3.5时代),模型发布像打一场硬仗:每次从头摸索流程,编写文档、测试接口、排查错误。

而到了Sonnet 4.5:发布前几天就打通全部流程,连邮件模板都提前准备好。模型上线就像发布App一样顺畅。

他甚至分享了一个客户的评价:

“这是我见过最顺畅的模型发布。”

不再依靠熬夜赶工,而是有标准、有工具、有节奏。

3. 上线不是交付,是一起用

团队开始“吃自己的狗粮”。

Mike他们最好的工程师现在同时管理三四个Claude Code实例:你需要更高层次地思考,把任务分解,让每个Claude Code处理不同的部分。工程师从写代码变成了管理AI。

以前,出事了是人先到现场。现在,是Claude先到。

这不是演示,是每天真实的工作方式。模型在真实场景中反复迭代。

所以,Sonnet 4.5发布节奏提速,并不是因为Claude更聪明、研究团队更强,而是三件事变了:

客户成了产品定义者,

上线流程像做App一样标准、流畅,

团队自己就是用户,模型在真实环境中反复试错。

节奏改变的本质,不是拼速度,而是做流程。

第二节|快还要稳,怎么做到的?

Claude Sonnet 4.5的提速,不只因为发布流程更顺。

更关键的是,它从“工具”变成了能主动协作的Agent。

Mike在对话中说:

“我们不只用Claude补全代码,它本身就能参与协作。它已经像同事一样,在Slack群里值班了。”

✅ 不是模型在答题,而是直接处理问题

Mike说,他们内部做了一个叫“Claude On Call”的Agent:

“它会在事故发生的第一分钟出现在群里,自动查看指标,快速判断原因,有时还会提醒:要不要检查一下那个服务是不是又挂了。”

这就是Agent跟传统AI的区别:不是你问它答,而是它自己判断何时该说话、说什么有用。

Mike给出了内部评分标准,一个真正的Claude Agent至少要做到:

  • 自主判断:不等指令,能判断何时出场
  • 使用工具:调用数据库、搜索资料、写入日志
  • 持续学习:不是每次重来,随使用次数变熟练
  • 主动协作:能进群、参与流程,不是独立窗口
  • 长时运行:任务时间可以是5分钟,也可以是5小时

人类员工做100次任务,应该比第一次做得更好。Claude也应该这样。

✅ Claude Code:用Claude开发Claude

在整个Sonnet 4.5版本里,Claude Code是最早用上Agent能力的场景。

Mike说,他们现在用Claude Code开发Claude Code本身。

“它写的不只是几段代码,而是能改动整个项目结构。我们用每个版本的Claude去重构claude.ai网站,从版本1到4.5,只有4.5成功完成了。”

这不仅说明模型能力更强,还说明:

  • Claude能看得懂上下文
  • Claude能规划多步执行
  • Claude能根据实际效果调整做法

而这些能力,已经不再是“问答模型”的范畴,而是Agent的核心特征。

✅ SDK推出:发布的是能接任务的AI

为了让更多人用上Claude Agent,Anthropic推出了Claude Agent SDK。

简单说,这是一个开发工具包,企业或个人开发者都能用它来:

  1. 把Claude接入自己的内部系统
  2. 让它拥有某种角色,比如财务顾问、客服助手、个人助理
  3. 让它能够长时间执行任务,比如跑一个30小时的自动化报表流程

Mike明确说:

“我们以前叫它Claude Code SDK,大家以为只能写代码。后来改名叫Claude Agent SDK,因为它能做的远超写代码。”

第一节讲的是:Claude发布流程更顺畅。这一节要说的是:Claude本身也变了。

第三节|Claude SDK,到底能做什么?

Sonnet 4.5发布后,有个数据引起关注:性能超越Opus 4.1,成本只有五分之一。

什么概念?

Opus 4.1曾是Anthropic的旗舰模型。现在,一款更轻量的模型在多数任务上都超过了它,运行成本不到20%。

这像某种算法突破。但Mike Krieger的解释很朴实:不是魔法。我们只是把工程做扎实了。

三个关键点,让成本降低80%:

① 后训练:训练完不上线,持续打磨体验”

Mike反复提到一个词:“后训练”(post-training)。这是什么意思?

就像做产品不是写完就发布,而是根据用户反馈打磨。模型训练完后也一样,继续根据真实场景调优:

  1. 更精准的指令遵循(模型更清楚如何响应)
  2. 更好的风格一致性(输出更专业)
  3. 更强的执行稳定性(长时间任务不中断)

Mike说得很直接:

“如果只能做到50%,那只是演示。要做到80%甚至90%,才能真正帮你完成工作。”

② 工程优化:不是用更多GPU,是提高资源效率

Claude能力变强,并不是因为用了更多的GPU,而是因为调度、存储、执行都优化了。

Mike说:

“过去6个月,真正进展最大的不是模型结构,是工程优化。”

具体来说:

  • 加速器间并行调度更稳定,
  • 模型中断概率降低,
  • 发布流程标准化。

就像厨房做菜:同样的设备,以前一道菜30分钟,现在流程调顺、食材备好、火候可控,10分钟出菜,还能同时做三道。

不是换了更好的锅,是把整个流程优化了。

③ 小模型追平大模型:靠工艺细节

过去的认知:大模型强但慢,小模型快但弱。

Claude Sonnet 4.5打破了这个认知。

Mike明确表示:Sonnet 4.5的核心不是更大,是更精。它在很多任务上已经超过Opus,而且更快、更便宜,能承接更多场景。

比如,在Claude Code场景中,Sonnet 4.5是第一个能独立构建完整网站版本的模型。

Mike说,他们做了一个实验:让每一代Claude去重建claude.ai网站。

“只有Sonnet 4.5做出了真正能用的版本。包括登录、API调用、前后台页面、权限控制,全部搞定。”

这说明它既懂原理,又能落地。

第四节|德勤怎么用上更快的Claude?

Claude Sonnet 4.5很强。

但Mike Krieger说:

“强不强不是关键,用得上才是。”

这句话背后,是Anthropic团队对AI工具落地过程的反复观察。

他们发现,大多数企业在面对新模型时,常常卡在两件事上:

  • 没时间试用,内部流程跟不上;
  • 用是能用,但真正融入业务流程很难。

所以Anthropic做了一套“落地工具包”,提供能直接上手的模板,不用自己拼技术。

✅ Claude SDK:接入新模型像打开App

你可以把Claude SDK理解成:

一套帮助企业把Claude接入业务流程的“接线板”。

Mike举了几个最常见的用法:

1、客服自动回复:

不用训练自己的模型,直接调用Claude做FAQ回答

还能根据用户历史提问自动调整语气和风格

2、文档助手:

把企业内部文档、知识库接进Claude

客户问问题时,Claude会先“看资料”,再回答,确保说得靠谱

3、内部AI助理:

给员工用的,不是对客户的

比如:帮产品经理整理需求文档、帮运营写月报、帮销售生成邮件模板

Mike强调:我们不是要让企业做出一个大模型平台,而是帮他们做出一个有用的Claude。

提供的是能直接嵌入业务的AI模块。

✅ 内置安全规范:让企业敢用

让企业敢用AI,不仅要好用,还得放心。

所有部署出来的Claude Agent,都必须有三重安全机制。

分别是:

身份确认机制:不让Agent冒充人类回答敏感内容

拒答机制:对于模糊或风险话题,明确说“不知道”或拒绝作答

可追溯机制:每一次调用、每一个回答,都可以回溯源文档和判断链条

这些机制,都被写在SDK默认模板里,企业不需要自己再设计。Anthropic不希望企业独自承担风险,而是要让Claude成为默认可托付的伙伴。

✅ 最大规模落地:德勤47万员工部署

Anthropic发布Claude Sonnet 4.5:从模型迭代到Agent工厂的转变 Claude 4.5  Agent工厂 企业部署 模型提速 第1张

(Anthropic与德勤达成史上最大规模企业部署(来源:CNBC))

Claude的嵌入式打法已在真实企业落地。

最大规模合作对象之一是德勤。

德勤刚刚宣布:将在全球150多个国家、面向47万名员工部署Claude。这是Anthropic迄今为止最大规模的企业合作项目。

不同部门用Claude的方式也不同。会计师、审计师、软件工程师,都将拥有属于自己的“Claude角色”,由德勤的AI团队定制开发。员工还可以向德勤专门设立的“Claude卓越中心”求助,像找内部专家一样快速使用AI。

Anthropic首席商务官Paul Smith说:我们双方都投入了大量资源,包括财力和工程力量。

德勤CTO Ranjit Bawa的一席话,道出了背后的核心逻辑:

客户总会问我们:你们自己用了吗?只有我们先用起来,才能更有说服力。

这不是口号,而是示范:AI不只卖方案,更要让组织自己先转变。

这印证了Mike Krieger的观点:模型发布只是开始,真正有价值的是企业内部能跑起来。

结语|企业怎么跟上?答案是“先启动”

Anthropic的节奏越来越快。Sonnet 4.5发布仅数月,下一个版本已在路上。

但Mike Krieger给出的答案不是追赶模型能力,而是改变使用方式。

企业如何跟上?三个关键:

  • 流程要顺:不是临时赶工,而是让AI接入变成标准动作
  • 先用起来:不等完美方案,先启动一个Agent让组织适应
  • 默认安全:用SDK内置规范,而不是自己从零设计

当模型更新越来越频繁,关键不是有没有API权限,而是:

工作流程能否容纳快速变化的AI?

员工能否在不重构流程的前提下用起来?

有没有一套默认可托付的使用规范?

Claude SDK的范式是:不需要完美接入,但必须先启动。

启动一个FAQ Agent、文档助手或邮件生成器,就意味着组织具备了响应变化的能力。

📮参考资料:

https://www.youtube.com/watch?v=GmcTq0Zo8kM&t=933s

https://www.youtube.com/watch?v=aJxnel2_O7Q&t=865s

https://www.cnbc.com/2025/10/06/anthropic-deloitte-enterprise-ai.html#:~:text=Deloitte%20on%20Monday%20announced%20a,companies%20first%20unveiled%20last%20year.