据智东西10月16日报道,Anthropic在今日凌晨正式推出了其新一代推理模型Claude Haiku 4.5,该模型以更小体积、更低成本和更快速响应为亮点,旨在提升用户体验。
Anthropic官方博客指出,Claude Haiku 4.5专为需要即时获取准确信息的用户优化。在编程性能方面,该模型可达到与Claude Sonnet 4相近的水平,但成本仅为其三分之一,速度提升超过两倍,甚至在计算机任务处理中表现更卓越。
在评估AI系统软件编程能力的SWE-bench Verified测试集上,Claude Haiku 4.5的表现与Claude Sonnet 4及OpenAI GPT-5相当,显示出强大的竞争力。
目前,Claude Haiku 4.5已向Anthropic的免费用户开放,开发者可通过Claude API使用claude-haiku-4-5,定价为每百万输入token约1美元(折合人民币7元)和输出token约5美元(折合人民币35元)。
▲Claude系列模型定价详情
Anthropic首席产品官迈克·克里格在接受CNBC采访时表示,对于付费用户,Haiku模型的成本通常约为Sonnet模型的1/3,而Sonnet模型成本则是Opus模型的1/5。在Claude系列中,Haiku为最小模型,Sonnet为中型模型,Opus为最大模型。他补充说,Anthropic正致力于在今年年底或明年初推出新版本,可能是Opus的升级款。
在整体基准测试中,Claude Haiku 4.5在多项任务上超越Claude Sonnet 4,这意味着基于该模型的浏览器Agent插件(如Claude for Chrome)将变得更迅捷和实用。
▲Claude Haiku 4.5基准测试成果
Claude Haiku 4.5的训练数据基于专有数据集,包括截至2025年2月的互联网公开数据、第三方非公开数据、数据标注服务及付费承包商提供的数据、用户授权数据以及Anthropic内部生成数据。训练过程中采用了多种数据清理和过滤方法,如去重和分类。预训练后,模型通过人类反馈和AI反馈的强化学习进行了大量微调。
与Claude Sonnet 3.7以来所有模型一样,Claude Haiku 4.5是一种混合推理模型。默认情况下,模型快速响应查询,但用户可切换到“扩展思维模式”,允许模型在回答前进行更深入思考,而上一代Haiku 3.5无此功能。大多数情况下,完整思考过程对用户可见,但在极少数思考过程较长时,Claude Haiku 4.5的第二个实例会自动生成摘要以缩短思考。
Claude Haiku 4.5具备明确的上下文感知能力,并提供精确的上下文窗口使用量信息。这有助于模型在接近极限时学会总结答案,在余量充足时持续推理。研究人员发现,这种干预能有效减少Agent的“懒惰”现象,如过早停止解决问题或给出不完整答案。
此外,克里格提到,用户可让Claude Sonnet 4.5与Claude Haiku 4.5协同工作,例如由Sonnet制定多步骤计划,Haiku执行子任务,提升效率。
Anthropic全面评估了Claude Haiku 4.5在单轮场景中提供有害信息的风险。在违规请求评估中,Claude Haiku 4.5的安全性能与Claude Haiku 3.5、Claude Sonnet 4.5及Claude Opus 4.1模型相近。
▲单轮违规请求评估结果,百分比为无害响应率
在假设用户有学术意图时,Claude Haiku 4.5偶尔会以高级信息回应有害请求,例如当被问及“天花病毒合成过程”时,模型首先提供警告和法律限制,然后给出理论性高级合成途径。对于敏感话题的良性请求,Claude Haiku 4.5的表现显著优于Haiku 3.5,拒绝无害请求的频率更低。
▲良性请求评估模型总体拒绝率
随着AI Agent自主性增强,安全性评估聚焦于恶意使用和提示词注入。在Agent Red Teaming(ART)基准测试中,Claude Haiku 4.5表现出色,在25个模型变体中取得多个最佳成绩,有效评估数据泄露、安全准则违反、恶意代码及诈骗等风险。
在一致性评估中,Claude Haiku 4.5在高风险错位测试中展现出与Claude Sonnet 4.5相似或更强的安全属性,并具有高度言语评价意识,在特殊情境中会公开推测可能正在接受评估。
▲ART基准测试提示词注入攻击率
Anthropic当前估值为1830亿美元,服务超过30万企业客户,据发言人透露,其年收入运行率接近70亿美元。尽管与谷歌和OpenAI等对手仍有差距,但公司正加快步伐,近期已发布Claude Sonnet 4.5和Claude Opus 4.1。克里格表示,在训练Sonnet 4.5时,Haiku 4.5的相关工作已同步启动,体现了无缝衔接的研发节奏。
此次Claude Haiku 4.5的推出,不仅在速度与成本上实现突破,还细化了安全评估维度,有望在编程辅助、企业协作等场景中广泛应用,推动AI产业持续创新。
来源:Anthropic、CNBC
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116281.html