注册

Claude Sonnet 5：智能体运行成本大降

2026年7月1日暂无评论阅读 74 次

收听本文语音

Claude Sonnet 5：智能体运行成本大降

Anthropic发布新一代智能体模型，性能与成本实现双重突破

随着基础模型公司纷纷将智能体能力作为标配，Anthropic实验室正式推出Claude Sonnet 5，这是一款性能更强、智能体能力更突出的中型模型版本。该模型代表了人工智能领域自主运行能力的最新进展。

自主运行能力迈上新台阶

根据Anthropic官方博客介绍，Claude Sonnet 5具备制定计划、使用浏览器和终端等工具的能力，并能以接近大型昂贵模型的水准自主运行。这一技术突破标志着智能体能力正迅速成为行业标准配置。

行业竞争转向成本与可靠性

这一产品定位与OpenAI和Google近期的发布策略如出一辙。OpenAI在上周发布了预览版GPT-5.6 Sol，该公司最具智能体特性的模型，允许用户将任务分配给多个子智能体以完成长期自主任务。而Google在5月推出的Gemini 3.5 Flash，则从对话聊天机器人转向智能体工具，能够在最小化人工干预的情况下规划、构建和迭代完成实际工作。

Sonnet 5的发布证实了智能体能力已成为各价格层级的基准期望。如今，竞争焦点已从谁能更好地执行智能体工作，转向谁能以更低成本、更少人工监督的方式可靠地完成这些任务。

性能与价格优势并存

Claude Sonnet 5承诺提供接近Opus 4.8的性能，但成本却大幅降低。从周二开始，Claude Sonnet 5将成为免费和专业计划的默认模型，对所有订阅用户开放。

在定价方面，Sonnet 5初始价格为每百万输入tokens 2美元，每百万输出tokens 10美元，这一优惠将持续到8月31日，之后价格调整为每百万输入tokens 3美元，每百万输出tokens 15美元。这一价格策略使Sonnet 5比Opus 4.8、OpenAI的GPT-5.5和Google的Gemini 3.1 Pro更具竞争力（尽管仍略贵于Gemini 3.5 Flash）。

显著提升的智能体性能

据Anthropic表示，新模型相比其前代Sonnet 4.6在智能体性能方面取得了显著进步，包括推理能力、工具使用、软件编码和知识工作等多个维度。

具体来看，在一项智能体编码基准测试中，Sonnet 5得分为63.2%，而Opus 4.8为69.2%，Sonnet 4.6则为58.1%。在知识工作基准测试中，Sonnet 5的表现甚至略优于以解决最复杂问题著称的Opus 4.8。

Anthropic指出：”Opus 4.8仍是这些任务中追求更高准确率的首选，但Sonnet 5为开发者提供了性价比极高的选择，其质量远超以往可用选项。用户可以在Sonnet 5和Opus 4.8之间调整努力程度，找到成本与性能的最佳平衡点。”

智能体安全性与实用性提升

据博客文章中引用的测试者反馈，Sonnet 5在完成复杂任务方面表现出色，能够完成前代模型可能中途停止的任务，并且”在未被明确要求的情况下自行检查输出”。

Zapier高级工程师Daniel Shepard表示：”我们让Claude Sonnet 5完成一个双任务工作——更新Salesforce账户层级并向企业联系人发送发布通知——它端到端地完成了任务。以往这类任务常常中途停滞。对于日常自动化工作，这无疑是个绝佳选择。”

在安全性方面，Sonnet 5表现出与不当合作、欺骗等”不良行为”更低的比率，使其在智能体应用场景中更安全。它能更好地拒绝恶意请求，在提示注入攻击中规避劫持尝试，并且幻觉和奉承行为的发生率低于Sonnet 4.6。

不过，与Opus 4.8和Claude Mythos Preview相比，Sonnet 5在不一致行为方面仍有差距。博客文章指出：”评估显示，它在执行危险网络安全任务方面的能力远低于我们当前的Opus模型。”

Lovable联合创始人Fabian Hedin在声明中表示，Claude Sonnet 5″能够干净、一致地拒绝不安全请求”。

“在Lovable，我们正在将强大的工具交到数百万建设者手中，”Hedin补充道，”一个知道何时说’不’的模型，与一个知道如何构建的模型同等重要。”

关注微信号：智享开源 ，及时了解更新信息。

评论列表

还没有任何评论，你来说两句吧！

发表评论

Mark Do Ta的个人站点

Mark Do发布文章2137篇

如我距离死亡还有45年，我还活着，该怎么度过现在。

热门音频

公众号：智享开源

近期文章

近期评论

Mark Do 发表在《Kimi K3技术突破：非简单复制所得》
Mark Do 发表在《AI基准测试失真：被忽视的真实性能》
Mark Do 发表在《旅游应用Hopper陷收费陷阱，FTC开罚3500万美元》
Mark Do 发表在《智能体键盘：AI助手融入手机输入法》
Mark Do 发表在《互联网之父功成身退》

分类

热门文章

Python Pandas DataFrame append 方法报错原因及解决方法 6,810 人阅

pandas 将多列数据字符串拼接在一起 4,926 人阅

要凤凰涅槃须经历一番心灵的洗涤 4,383 人阅

pandas 筛选列数据中包含某个字符串的数据？ 3,932 人阅

python 如何将电子表格按照某一列相同数据分到一个一个工作表中 3,362 人阅