Claude Sonnet 5:智能体运行成本大降

Anthropic发布新一代智能体模型,性能与成本实现双重突破
随着基础模型公司纷纷将智能体能力作为标配,Anthropic实验室正式推出Claude Sonnet 5,这是一款性能更强、智能体能力更突出的中型模型版本。该模型代表了人工智能领域自主运行能力的最新进展。
自主运行能力迈上新台阶
根据Anthropic官方博客介绍,Claude Sonnet 5具备制定计划、使用浏览器和终端等工具的能力,并能以接近大型昂贵模型的水准自主运行。这一技术突破标志着智能体能力正迅速成为行业标准配置。
行业竞争转向成本与可靠性
这一产品定位与OpenAI和Google近期的发布策略如出一辙。OpenAI在上周发布了预览版GPT-5.6 Sol,该公司最具智能体特性的模型,允许用户将任务分配给多个子智能体以完成长期自主任务。而Google在5月推出的Gemini 3.5 Flash,则从对话聊天机器人转向智能体工具,能够在最小化人工干预的情况下规划、构建和迭代完成实际工作。
Sonnet 5的发布证实了智能体能力已成为各价格层级的基准期望。如今,竞争焦点已从谁能更好地执行智能体工作,转向谁能以更低成本、更少人工监督的方式可靠地完成这些任务。
性能与价格优势并存
Claude Sonnet 5承诺提供接近Opus 4.8的性能,但成本却大幅降低。从周二开始,Claude Sonnet 5将成为免费和专业计划的默认模型,对所有订阅用户开放。
在定价方面,Sonnet 5初始价格为每百万输入tokens 2美元,每百万输出tokens 10美元,这一优惠将持续到8月31日,之后价格调整为每百万输入tokens 3美元,每百万输出tokens 15美元。这一价格策略使Sonnet 5比Opus 4.8、OpenAI的GPT-5.5和Google的Gemini 3.1 Pro更具竞争力(尽管仍略贵于Gemini 3.5 Flash)。
显著提升的智能体性能
据Anthropic表示,新模型相比其前代Sonnet 4.6在智能体性能方面取得了显著进步,包括推理能力、工具使用、软件编码和知识工作等多个维度。
具体来看,在一项智能体编码基准测试中,Sonnet 5得分为63.2%,而Opus 4.8为69.2%,Sonnet 4.6则为58.1%。在知识工作基准测试中,Sonnet 5的表现甚至略优于以解决最复杂问题著称的Opus 4.8。
Anthropic指出:”Opus 4.8仍是这些任务中追求更高准确率的首选,但Sonnet 5为开发者提供了性价比极高的选择,其质量远超以往可用选项。用户可以在Sonnet 5和Opus 4.8之间调整努力程度,找到成本与性能的最佳平衡点。”
智能体安全性与实用性提升
据博客文章中引用的测试者反馈,Sonnet 5在完成复杂任务方面表现出色,能够完成前代模型可能中途停止的任务,并且”在未被明确要求的情况下自行检查输出”。
Zapier高级工程师Daniel Shepard表示:”我们让Claude Sonnet 5完成一个双任务工作——更新Salesforce账户层级并向企业联系人发送发布通知——它端到端地完成了任务。以往这类任务常常中途停滞。对于日常自动化工作,这无疑是个绝佳选择。”
在安全性方面,Sonnet 5表现出与不当合作、欺骗等”不良行为”更低的比率,使其在智能体应用场景中更安全。它能更好地拒绝恶意请求,在提示注入攻击中规避劫持尝试,并且幻觉和奉承行为的发生率低于Sonnet 4.6。
不过,与Opus 4.8和Claude Mythos Preview相比,Sonnet 5在不一致行为方面仍有差距。博客文章指出:”评估显示,它在执行危险网络安全任务方面的能力远低于我们当前的Opus模型。”
Lovable联合创始人Fabian Hedin在声明中表示,Claude Sonnet 5″能够干净、一致地拒绝不安全请求”。
“在Lovable,我们正在将强大的工具交到数百万建设者手中,”Hedin补充道,”一个知道何时说’不’的模型,与一个知道如何构建的模型同等重要。”
关注微信号:智享开源 ,及时了解更新信息。

公众号:智享开源
还没有任何评论,你来说两句吧!