当前位置：首页 > 科技资讯 > 正文

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时

主机测评网
科技资讯
2026-01-05
802

随着假期临近，全球AI模型公司加速创新，在节前展开新一轮竞争。近日，DeepSeek刚刚发布V3.2-Exp模型，而Anthropic紧随其后，推出了全面升级的Claude Sonnet 4.5版本，宣称这是目前最先进的编码模型。

Claude Sonnet 4.5引领编码革命：自主运行能力突破30小时

官方测试数据显示，Claude Sonnet 4.5在SWE-bench Verified评测中取得了顶尖成绩，该评测聚焦于模型在真实场景下的编码能力。

在实际测试中，Claude Sonnet 4.5能够处理复杂的多步骤任务，并持续专注运行超过30个小时。相比之前Opus 4模型约7小时的运行时间，Sonnet 4.5实现了显著优化。这对于Anthropic构建代理系统而言，是一个关键里程碑。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第1张

此外，Sonnet 4.5在计算机操作方面也有大幅提升。在OSWorld评测中，它获得了61.4%的得分，该评测专门测试AI完成真实电脑任务的能力。而四个月前，Sonnet 4以42.2%的成绩位居第一。

这些增强功能现已整合到Claude的Chrome插件中。根据官方演示，该模型可以直接在浏览器中操作：访问网站、填写表格、执行任务等。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第2张

同时，Sonnet 4.5在推理和数学等多项测试中表现突出。从下图可以看出，在Agentic Coding、Agentic Tool Use等评测中，Claude Sonnet 4.5远超GPT-5、Gemini 2.5 Pro等竞品模型。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第3张

来自金融、法律、医学和理工科等领域的专家一致认为，该模型在专业知识和推理能力上，已经显著超越了之前的版本（包括Opus 4.1）。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第4张

显著改善的“幻觉”、“谄媚”和“欺骗”问题

众所周知，如果缺乏审查，AI自主生成的代码一旦投入生产环境，可能带来各种风险。Anthropic表示，Claude Sonnet 4.5不仅是当前最强大的模型，也是他们迄今推出的最“对齐”的前沿模型。

Anthropic透露，该模型经过了“广泛”的安全训练，并增强了对即时注入攻击的防护。数据显示，使用自动化行为审计工具评估后，模型得分越低代表越安全。所谓“不对齐行为”包括欺骗、迎合、权力攫取、鼓励妄想，以及响应危险指令等。

在所有大模型中，Sonnet 4.5的评分最低。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第5张

此外，Claude Sonnet 4.5按照AI安全等级3（ASL-3）标准发布，配备了与能力匹配的防护措施。例如通过分类器来过滤潜在的危险输入和输出，特别是涉及化学、生物、放射和核武器（CBRN）的内容。

不过，Anthropic也承认这些分类器有时会误判正常内容。为此，他们提供了便捷的切换方案，用户可以改用CBRN风险更低的Sonnet 4继续对话。值得注意的是，团队在减少“误报”方面已取得显著进展：与最初版本相比，误报率降低了10倍；与今年5月发布的Claude Opus 4相比，也下降了一半。

重磅升级的Claude Code

对于开发者来说，Claude Code的最新进展尤为引人关注。

Anthropic表示，他们花了六个多月时间更新Claude Code的能力。在Sonnet 4.5的支持下，Claude Code现在能够在终端和IDE中处理更长、更复杂的开发任务。

此次更新包括多个方面：

原生VS Code插件：Anthropic即将推出原生VS Code插件的Beta版本，将Claude Code直接集成到IDE中。用户可以通过专用侧边栏面板实时查看Claude对代码的修改，并看到内联差异。这款插件为偏好IDE开发的用户提供了更直观、丰富的体验。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第6张

终端界面升级：Claude Code的终端界面也进行了优化，新增了更清晰的状态显示和可搜索的提示历史（Ctrl+r），方便用户重复使用或编辑之前的指令。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第7张

Claude Agent SDK发布：对于希望创建自定义代理体验的团队，Anthropic将用于构建Claude Code的核心“模块”开放给开发者，命名为Claude Agent SDK。

这套底层基础设施不仅支撑Claude Code，也适用于各种任务，开发者可以用它搭建自己的智能体。它解决了智能体在长任务中管理记忆、平衡自主性与用户控制，以及协调多个子智能体协作等难题。正如官方所说，当初开发Claude Code是因为市面上缺乏合适工具；现在，Agent SDK让开发者也能用同样基础打造强大工具，解决各自业务问题。

Claude Sonnet 4.5震撼登场：编码模型新标杆，可持续运行30小时人工智能 4.5 编码模型代理系统第8张

Checkpoint功能：Claude Code增加了用户期待已久的checkpoint功能，因为复杂开发往往需要不断探索和迭代。新系统会在每次修改前自动保存代码状态，用户可以通过双击Esc或使用/rewind命令瞬间回退到先前版本。Checkpoint可让开发者放心尝试大规模或复杂任务，同时保证可以随时恢复之前的代码状态。回退时，用户可以选择恢复代码、对话或两者兼顾。Checkpoint仅适用于Claude的修改，不会影响用户手动编辑或Bash命令。官方建议将其与版本控制结合使用，以获得最佳效果。

在官方公告中，Anthropic建议Checkpoint可以与Claude Code最新功能配合使用效果最佳，例如：

子智能体可以委派专门任务，例如在主智能体构建前端的同时启动后台API，实现并行开发；

钩子可在特定环节自动触发操作，如代码修改后运行测试套件，或提交前进行lint检查；

后台任务可以保持长时间运行的进程（如开发服务器）活跃，同时不阻塞Claude Code处理其他工作。

这些能力使Claude Code可以用于大规模重构或功能探索等任务。

其他功能

除此之外，Anthropic还对产品进行了多项升级：

Claude API新增上下文编辑和记忆工具，让智能体可以运行更长时间、处理更复杂的任务；

Claude应用中，现在可以直接在对话里运行代码和生成文件（包括表格、幻灯片和文档）；

Chrome插件已对上个月排队的Max用户开放。

Anthropic还推出了一个限时实验功能“Imagine with Claude”。在这个实验中，Claude能实时生成软件：没有预设功能，也没有预写代码，它会根据用户的即时交互需求进行创造和适配。当前，“Imagine with Claude”对Max用户开放5天，可在claude.ai/imagine体验。

Claude Sonnet 4.5今天即可使用。如果是开发者，可通过Claude API调用claude-sonnet-4.5。Sonnet 4.5的API定价与4.0相同，保持不变：每百万输入token收费3美元，每百万输出token收费15美元。