Anthropic推高性价比AI模型Sonnet 5

Anthropic今日正式发布Claude Sonnet 5,这款新型AI模型号称以中端价格提供接近旗舰级别的性能——此举旨在让注重成本的企业开发者能够获得强大的智能体功能,恰逢这家旧金山AI实验室冲刺IPO之际,这将检验私人市场的惊人AI估值能否经受公众审视的考验。
此次发布被Anthropic描述为”迄今为止最具智能体特性的Sonnet模型“,Sonnet 5已成为Anthropic免费版和专业版用户的默认模型,同时也向Max、Team和企业客户开放。入门级API定价设定为每百万输入token 2美元、每百万输出token 10美元,有效期至8月31日,之后分别上调至3美元和15美元——这仍远低于Anthropic顶级Opus 4.8的每百万输入token 5美元和每百万输出token 25美元的定价。
其战略逻辑显而易见:Anthropic正努力普及那些直到最近只有其最昂贵模型才能提供的功能,同时构建广泛基础的开发者采用率,这将使其在S-1招股说明书中更具吸引力。
Sonnet 5基准测试显示中端模型正逼近Anthropic旗舰Opus
Sonnet 5在Anthropic披露的所有评估中都较其前代产品Sonnet 4.6取得显著进步。在SWE-bench Pro(智能体编程基准测试)中,Sonnet 5得分为63.2%,而Sonnet 4.6为58.1%——这一飞跃使其接近Opus 4.8的69.2%。在另一项编程评估Terminal-Bench 2.1中,差距进一步缩小:Sonnet 5为80.4%,Sonnet 4.6为67.0%,Opus 4.8为82.7%。
在多学科推理方面,通过人类最后的考试测量,Sonnet 5在不使用工具时得分为43.2%,使用工具时为57.4%——后者几乎与Opus 4.8的57.9%相当。在通过OSWorld-Verified评估的计算机使用任务中,Sonnet 5达到81.2%,高于前代的78.5%。而在GDPval-AA v2(知识工作基准测试)中,它得分为1,618,超过Opus 4.8的1,615,远高于Sonnet 4.6的1,395。
这些评估结果传达出一致的信息:Sonnet 5不仅是从前代产品小幅进步,而是跃升到一个与Anthropic旗舰模型性能大幅重叠的层级,而标准定价下的每个token成本大约低60%, introductory期间甚至更低。
企业合作伙伴称Sonnet 5的智能体AI能力能完成前代模型放弃的任务
对智能体能力的重视——即规划、使用浏览器和终端等工具以及自主执行多步骤工作流的能力——反映了2026年AI行业重心的转移。企业不再仅仅向聊天机器人提问,而是部署能够复杂数字软件环境、执行多步骤编码任务并在最少人工监督下运行的AI系统。
早期采用合作伙伴描绘了一款不仅开始任务而且能完成任务的模型。Cursor(已成为开发者工具采用风向标的AI代码编辑器)联合创始人Sualeh Asif表示:”借助Claude Sonnet 5,智能体能保持计划性、遵循我们的约定并以高效成本完成干净的多步骤变更。”Zapier高级工程师Daniel Shepard描述了一项两部分的自动化工作——更新Salesforce账户等级和发送发布通知——这项任务”以前会在中途停滞”,但现在能端到端完成。
这些证言之所以重要,是因为它们描述的正是许多企业未能将智能体AI从试点项目扩展到生产部署的可靠性差距。一个在复杂任务完成80%后停滞的模型制造的问题多于解决的问题;而能可靠完成整个工作流的模型则改变了自动化的经济性。Anthropic还引入了成本-性能曲线,显示开发者现在可以在Sonnet 5和Opus 4.8之间调整努力程度,为其特定用例找到成本和准确性的最佳平衡——这种细致度反映了企业消费AI服务的日益成熟。
更新的分词器提升了Sonnet 5性能,但可能悄然提高某些工作负载成本
公告脚注中隐藏的一个技术细节值得关注:Sonnet 5使用更新的分词器,改变了模型处理文本的方式,这与Anthropic在Opus 4.7中引入的变更类似。
权衡之处在于,相同输入根据内容类型可能映射到多1.0到1.35倍的token数量。Anthropic表示,入门定价旨在使过渡”大致成本中性”,但运行高容量工作负载的企业客户在假设账单不会变化之前,应仔细测试其特定用例。
Anthropic称Sonnet 5比前代更安全,但其最强大的模型在对齐方面仍领先
Anthropic的安全披露展现了一幅细致的图景。该公司报告称,Sonnet 5表现出比Sonnet 4.6更低幻觉率和奉承率,更善于拒绝恶意请求,并在智能体环境中更能抵抗提示注入攻击。在Anthropic的自动化行为审计中——测试广泛的失控行为,包括协助误用和欺骗——Sonnet 5总体得分低于(即更安全)Sonnet 4.6。
然而,Sonnet 5与功能更强大的Opus 4.8和Anthropic的Claude Mythos Preview(该公司强大但严格限制的专注网络安全模型)相比,显示出”略高的失控行为率”。在与Mozilla合作创建的Firefox 147漏洞开发评估中,两个Sonnet模型都无法开发出可利用的漏洞——两者得分均为0.0%,但Sonnet 5显示略高的部分成功率(13.2%),高于Sonnet 4.6(8.8%)。两者仍远低于Opus 4.8(68.8%可利用漏洞)和Mythos 5(88.4%)。
由于在网络安全相关能力方面的这些增量提升,Anthropic在发布Sonnet 5时默认启用了网络安全防护——实时检测并阻止危险的网络安全使用。这些防护措施与Opus 4.7和4.8上的类似,但比应用于Fable 5(最新Mythos级模型,彭博社曾报道)的限制性更小。
关注微信号:智享开源 ,及时了解更新信息。

公众号:智享开源
还没有任何评论,你来说两句吧!