随着假期临近,全球AI模型公司加速创新,在节前展开新一轮竞争。近日,DeepSeek刚刚发布V3.2-Exp模型,而Anthropic紧随其后,推出了全面升级的Claude Sonnet 4.5版本,宣称这是目前最先进的编码模型。
官方测试数据显示,Claude Sonnet 4.5在SWE-bench Verified评测中取得了顶尖成绩,该评测聚焦于模型在真实场景下的编码能力。
在实际测试中,Claude Sonnet 4.5能够处理复杂的多步骤任务,并持续专注运行超过30个小时。相比之前Opus 4模型约7小时的运行时间,Sonnet 4.5实现了显著优化。这对于Anthropic构建代理系统而言,是一个关键里程碑。
此外,Sonnet 4.5在计算机操作方面也有大幅提升。在OSWorld评测中,它获得了61.4%的得分,该评测专门测试AI完成真实电脑任务的能力。而四个月前,Sonnet 4以42.2%的成绩位居第一。
这些增强功能现已整合到Claude的Chrome插件中。根据官方演示,该模型可以直接在浏览器中操作:访问网站、填写表格、执行任务等。
同时,Sonnet 4.5在推理和数学等多项测试中表现突出。从下图可以看出,在Agentic Coding、Agentic Tool Use等评测中,Claude Sonnet 4.5远超GPT-5、Gemini 2.5 Pro等竞品模型。
来自金融、法律、医学和理工科等领域的专家一致认为,该模型在专业知识和推理能力上,已经显著超越了之前的版本(包括Opus 4.1)。
众所周知,如果缺乏审查,AI自主生成的代码一旦投入生产环境,可能带来各种风险。Anthropic表示,Claude Sonnet 4.5不仅是当前最强大的模型,也是他们迄今推出的最“对齐”的前沿模型。
Anthropic透露,该模型经过了“广泛”的安全训练,并增强了对即时注入攻击的防护。数据显示,使用自动化行为审计工具评估后,模型得分越低代表越安全。所谓“不对齐行为”包括欺骗、迎合、权力攫取、鼓励妄想,以及响应危险指令等。
在所有大模型中,Sonnet 4.5的评分最低。
此外,Claude Sonnet 4.5按照AI安全等级3(ASL-3)标准发布,配备了与能力匹配的防护措施。例如通过分类器来过滤潜在的危险输入和输出,特别是涉及化学、生物、放射和核武器(CBRN)的内容。
不过,Anthropic也承认这些分类器有时会误判正常内容。为此,他们提供了便捷的切换方案,用户可以改用CBRN风险更低的Sonnet 4继续对话。值得注意的是,团队在减少“误报”方面已取得显著进展:与最初版本相比,误报率降低了10倍;与今年5月发布的Claude Opus 4相比,也下降了一半。
对于开发者来说,Claude Code的最新进展尤为引人关注。
Anthropic表示,他们花了六个多月时间更新Claude Code的能力。在Sonnet 4.5的支持下,Claude Code现在能够在终端和IDE中处理更长、更复杂的开发任务。
此次更新包括多个方面:
原生VS Code插件:Anthropic即将推出原生VS Code插件的Beta版本,将Claude Code直接集成到IDE中。用户可以通过专用侧边栏面板实时查看Claude对代码的修改,并看到内联差异。这款插件为偏好IDE开发的用户提供了更直观、丰富的体验。
终端界面升级:Claude Code的终端界面也进行了优化,新增了更清晰的状态显示和可搜索的提示历史(Ctrl+r),方便用户重复使用或编辑之前的指令。
Claude Agent SDK发布:对于希望创建自定义代理体验的团队,Anthropic将用于构建Claude Code的核心“模块”开放给开发者,命名为Claude Agent SDK。
这套底层基础设施不仅支撑Claude Code,也适用于各种任务,开发者可以用它搭建自己的智能体。它解决了智能体在长任务中管理记忆、平衡自主性与用户控制,以及协调多个子智能体协作等难题。正如官方所说,当初开发Claude Code是因为市面上缺乏合适工具;现在,Agent SDK让开发者也能用同样基础打造强大工具,解决各自业务问题。
Checkpoint功能:Claude Code增加了用户期待已久的checkpoint功能,因为复杂开发往往需要不断探索和迭代。新系统会在每次修改前自动保存代码状态,用户可以通过双击Esc或使用/rewind命令瞬间回退到先前版本。Checkpoint可让开发者放心尝试大规模或复杂任务,同时保证可以随时恢复之前的代码状态。回退时,用户可以选择恢复代码、对话或两者兼顾。Checkpoint仅适用于Claude的修改,不会影响用户手动编辑或Bash命令。官方建议将其与版本控制结合使用,以获得最佳效果。
在官方公告中,Anthropic建议Checkpoint可以与Claude Code最新功能配合使用效果最佳,例如:
子智能体可以委派专门任务,例如在主智能体构建前端的同时启动后台API,实现并行开发;
钩子可在特定环节自动触发操作,如代码修改后运行测试套件,或提交前进行lint检查;
后台任务可以保持长时间运行的进程(如开发服务器)活跃,同时不阻塞Claude Code处理其他工作。
这些能力使Claude Code可以用于大规模重构或功能探索等任务。
除此之外,Anthropic还对产品进行了多项升级:
Claude API新增上下文编辑和记忆工具,让智能体可以运行更长时间、处理更复杂的任务;
Claude应用中,现在可以直接在对话里运行代码和生成文件(包括表格、幻灯片和文档);
Chrome插件已对上个月排队的Max用户开放。
Anthropic还推出了一个限时实验功能“Imagine with Claude”。在这个实验中,Claude能实时生成软件:没有预设功能,也没有预写代码,它会根据用户的即时交互需求进行创造和适配。当前,“Imagine with Claude”对Max用户开放5天,可在claude.ai/imagine体验。
Claude Sonnet 4.5今天即可使用。如果是开发者,可通过Claude API调用claude-sonnet-4.5。Sonnet 4.5的API定价与4.0相同,保持不变:每百万输入token收费3美元,每百万输出token收费15美元。
随着Claude Sonnet 4.5和全新Claude Code的上线,许多开发者第一时间上手体验,分享了他们的惊喜与疑问。
一位开发者This is Dmitry Zhomir尝试让Claude 4.5 Sonnet用Three.js制作一个简单的3D射击游戏,结果令人印象深刻:
「我甚至不用提供贴图和音效,它自己全都生成了。难道Anthropic要取代游戏开发者了吗??」
还有人做了简单的SVG测试,这是由Claude Sonnet 4.5生成的作品:
这是GPT-5生成的:
你觉得哪一个更胜一筹?
当然,也有人指出AI并不能完全替代人工。开发者Vas分享了他的体验:
“Claude 4.5 Sonnet一次调用就重构了我的整个代码库。
调用了25个工具,新增了3000多行代码,创建了12个全新文件。
它把所有东西模块化,拆分了巨型单体结构,整理了凌乱的代码。
可惜,这些都没能运行……
但不得不说,效果真是赏心悦目。”
与此同时,有人向Sam Altman提问:“Dario刚刚发布了Claude 4.5,它在编程、代理任务和计算机使用上已经击败了GPT-5;同时Deepseek也推出了新模型,推理成本降低了10倍,API成本降低了50%……”你们准备如何应对?
据报道,未来两周OpenAI将发布新产品。Wired消息显示,他们计划为Sora 2推出一款独立社交媒体应用,类似抖音,但内容将100%由AI根据用户prompt生成,无需用户亲自拍摄或剪辑。
可以说,新一轮的AI“内卷”已经悄然开启。面对这一波工具更新,你会如何看待?
更多内容可参考官方公告:https://www.anthropic.com/news/claude-sonnet-4-5
本文由主机测评网于2026-01-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115112.html