Anthropic推高性价比AI模型Sonnet 5

2026年7月1日暂无评论阅读 86 次

收听本文语音

Anthropic今日正式发布Claude Sonnet 5，这款新型AI模型号称以中端价格提供接近旗舰级别的性能——此举旨在让注重成本的企业开发者能够获得强大的智能体功能，恰逢这家旧金山AI实验室冲刺IPO之际，这将检验私人市场的惊人AI估值能否经受公众审视的考验。

此次发布被Anthropic描述为”迄今为止最具智能体特性的Sonnet模型”，Sonnet 5已成为Anthropic免费版和专业版用户的默认模型，同时也向Max、Team和企业客户开放。入门级API定价设定为每百万输入token 2美元、每百万输出token 10美元，有效期至8月31日，之后分别上调至3美元和15美元——这仍远低于Anthropic顶级Opus 4.8的每百万输入token 5美元和每百万输出token 25美元的定价。

其战略逻辑显而易见：Anthropic正努力普及那些直到最近只有其最昂贵模型才能提供的功能，同时构建广泛基础的开发者采用率，这将使其在S-1招股说明书中更具吸引力。

Sonnet 5基准测试显示中端模型正逼近Anthropic旗舰Opus

Sonnet 5在Anthropic披露的所有评估中都较其前代产品Sonnet 4.6取得显著进步。在SWE-bench Pro（智能体编程基准测试）中，Sonnet 5得分为63.2%，而Sonnet 4.6为58.1%——这一飞跃使其接近Opus 4.8的69.2%。在另一项编程评估Terminal-Bench 2.1中，差距进一步缩小：Sonnet 5为80.4%，Sonnet 4.6为67.0%，Opus 4.8为82.7%。

在多学科推理方面，通过人类最后的考试测量，Sonnet 5在不使用工具时得分为43.2%，使用工具时为57.4%——后者几乎与Opus 4.8的57.9%相当。在通过OSWorld-Verified评估的计算机使用任务中，Sonnet 5达到81.2%，高于前代的78.5%。而在GDPval-AA v2（知识工作基准测试）中，它得分为1,618，超过Opus 4.8的1,615，远高于Sonnet 4.6的1,395。

这些评估结果传达出一致的信息：Sonnet 5不仅是从前代产品小幅进步，而是跃升到一个与Anthropic旗舰模型性能大幅重叠的层级，而标准定价下的每个token成本大约低60%， introductory期间甚至更低。

企业合作伙伴称Sonnet 5的智能体AI能力能完成前代模型放弃的任务

对智能体能力的重视——即规划、使用浏览器和终端等工具以及自主执行多步骤工作流的能力——反映了2026年AI行业重心的转移。企业不再仅仅向聊天机器人提问，而是部署能够复杂数字软件环境、执行多步骤编码任务并在最少人工监督下运行的AI系统。

早期采用合作伙伴描绘了一款不仅开始任务而且能完成任务的模型。Cursor（已成为开发者工具采用风向标的AI代码编辑器）联合创始人Sualeh Asif表示：”借助Claude Sonnet 5，智能体能保持计划性、遵循我们的约定并以高效成本完成干净的多步骤变更。”Zapier高级工程师Daniel Shepard描述了一项两部分的自动化工作——更新Salesforce账户等级和发送发布通知——这项任务”以前会在中途停滞”，但现在能端到端完成。

这些证言之所以重要，是因为它们描述的正是许多企业未能将智能体AI从试点项目扩展到生产部署的可靠性差距。一个在复杂任务完成80%后停滞的模型制造的问题多于解决的问题；而能可靠完成整个工作流的模型则改变了自动化的经济性。Anthropic还引入了成本-性能曲线，显示开发者现在可以在Sonnet 5和Opus 4.8之间调整努力程度，为其特定用例找到成本和准确性的最佳平衡——这种细致度反映了企业消费AI服务的日益成熟。

更新的分词器提升了Sonnet 5性能，但可能悄然提高某些工作负载成本

公告脚注中隐藏的一个技术细节值得关注：Sonnet 5使用更新的分词器，改变了模型处理文本的方式，这与Anthropic在Opus 4.7中引入的变更类似。

权衡之处在于，相同输入根据内容类型可能映射到多1.0到1.35倍的token数量。Anthropic表示，入门定价旨在使过渡”大致成本中性”，但运行高容量工作负载的企业客户在假设账单不会变化之前，应仔细测试其特定用例。

Anthropic称Sonnet 5比前代更安全，但其最强大的模型在对齐方面仍领先

Anthropic的安全披露展现了一幅细致的图景。该公司报告称，Sonnet 5表现出比Sonnet 4.6更低幻觉率和奉承率，更善于拒绝恶意请求，并在智能体环境中更能抵抗提示注入攻击。在Anthropic的自动化行为审计中——测试广泛的失控行为，包括协助误用和欺骗——Sonnet 5总体得分低于（即更安全）Sonnet 4.6。

然而，Sonnet 5与功能更强大的Opus 4.8和Anthropic的Claude Mythos Preview（该公司强大但严格限制的专注网络安全模型）相比，显示出”略高的失控行为率”。在与Mozilla合作创建的Firefox 147漏洞开发评估中，两个Sonnet模型都无法开发出可利用的漏洞——两者得分均为0.0%，但Sonnet 5显示略高的部分成功率（13.2%），高于Sonnet 4.6（8.8%）。两者仍远低于Opus 4.8（68.8%可利用漏洞）和Mythos 5（88.4%）。

由于在网络安全相关能力方面的这些增量提升，Anthropic在发布Sonnet 5时默认启用了网络安全防护——实时检测并阻止危险的网络安全使用。这些防护措施与Opus 4.7和4.8上的类似，但比应用于Fable 5（最新Mythos级模型，彭博社曾报道）的限制性更小。

关注微信号：智享开源 ，及时了解更新信息。

0 0