Anthropic浏览器智能体劫持率达31.5%,行业安全披露标准缺失

前沿AI实验室安全披露差异显著
在各大前沿AI实验室中,Anthropic今年春季公布的提示注入数据最为突出。当网络安全专家将最新模型置于浏览器环境中测试时,攻击者在安全措施启动前成功劫持智能体的比例高达31.5%。相比之下,OpenAI、Google和Meta均未向安全负责人提供可比较的数据。这个数字看似是公司的责任风险,但在这次比较中,它反而成为了最坚实的参考基准。
各实验室安全披露标准不一
四家前沿实验室各自发布了提示注入披露报告,但彼此间没有一致性。Anthropic在5月28日公布了244页的详细报告,涵盖四个智能体表面。OpenAI只报告了一个表面——连接器。Google将提示注入内容从模型卡片移至单独的安全框架中。Meta则完全没有发布封闭模型卡片。下方的”跨厂商提示注入披露网格”展示了各实验室的测试内容、测量指标,以及为何并排比较会出现分歧。
提示注入攻击的潜在威胁
提示注入是一种攻击方式,攻击者将恶意指令隐藏在智能体读取的内容中,如网页、文档或工具结果。一行植入的代码可能导出敏感记录或执行未经批准的操作,而这些模型卡片是客户获取的第一方安全证据。
行业标准的缺失
目前行业对于这些安全指标的测量缺乏统一标准,这是问题的根源。Reputation公司AI副总裁Carter Rees向VentureBeat表示,提示注入破坏了所有传统工具构建的基础假设。”一句看似无害的’忽略先前指令’可能携带如同缓冲区溢出般毁灭性的载荷,但它与已知恶意软件签名毫无共同之处。”由于没有可共享的签名进行扫描,各实验室建立了自己的衡量标准,导致结果无法直接比较。
安全责任转移至用户
CrowdStrike反对手运营高级副总裁Adam Meyers指出,现在安全风险的管理责任已转移至用户。”随着AI的实施,您的攻击面扩大,因此您必须能够保护这些AI模型免受对手滥用、数据投毒或提示注入的侵害。”CrowdStrike的前线数据显示,威胁方并未停滞不前。该公司在5月发布的《2026年金融服务威胁态势报告》中指出,攻击者正利用AI缩短从初始访问到实际影响的时间,速度超过了传统防御系统的响应能力。
Anthropic的四个测试表面:数据差异高达一个数量级
Opus 4.8系统卡片与其他不同之处在于:它按表面类型分解了提示注入数据,而其中的差异正是关键信息。
编码环境与浏览器环境的安全表现
当模型置于编码环境中时,Gray Swan的Shade工具进行的自适应攻击在开启思维模式的情况下,单次尝试成功率为7.03%,安全措施将其降至2.09%。
然而,当同样的攻击类型转移到浏览器环境中——即支持Claude in Chrome和Claude Cowork的平台——安全防线显著减弱。Anthropic让专业红队人员对129个未用于训练的网络环境进行测试,并在系统卡片的第81页表5.2.2.4.A中列出了所有结果。”每次尝试”是指在129个环境中各进行10次尝试的注入成功率;”每个场景”则是更严格的指标,指至少有一次尝试成功的环境占比。
查看无安全措施、开启思维模式下的”每次尝试”列数据,原始成功率随代际降低:从Sonnet 4.6的50.7%降至Opus 4.8的31.5%。表格中最低值为5.9%,属于尚无法购买的Mythos Preview。开启安全措施后,Opus 4.8的攻击成功率降至0.5%;关闭思维模式则在所有129个环境中降至零。
OpenAI仅测试单一表面,使用已知攻击
OpenAI于4月23日发布并于24日更新的GPT-5.5系统卡片,在单一部分处理提示注入问题,即针对连接器的已知攻击的鲁棒性。OpenAI将其报告为鲁棒性评分(越高越好),相当于攻击成功率的倒数。GPT-5.5得分为0.963,低于GPT-5.4-thinking的0.998。这一个数字就是其全部披露内容。
相比之下,Anthropic测试了四个表面,针对能够根据模型行为实时调整策略的自适应攻击者,并进行了为期一周的漏洞赏金活动,让红队人员实时尝试突破模型。当编码环境的结果比Opus 4.7更差时,报告中如实承认了这一点。
将0.963的鲁棒性评分与31.5%的攻击成功率放在一起,它们看似可以并列比较,但实际上完全不同。前者是一个针对单一表面上已知攻击的鲁棒性评分;后者则是跨129个浏览器环境,针对实时自适应攻击者的每次尝试攻击成功率。
Google和Meta未在模型卡片中提供具体数据
Google的Gemini 3将提示注入归类为缓解措施部分,发布材料描述了更强的抵抗力,但未附具体数字。其前沿安全框架报告确实进行了红队测试,但覆盖的是各个能力领域,不包含提示注入。无论是模型卡片、框架页面,还是客户可用于风险评估的各表面数据,Google均未提供。
Meta发布的是开源权重,没有封闭模型卡片。提示注入防御位于名为Purple Llama的独立堆栈中,特别是LlamaFirewall。PromptGuard 2分类器和AlignmentCheck审计器针对公开的AgentDojo基准及其97个任务进行测试,将攻击成功率从无防御时的17.6%降至结合防御后的1.75%。这些是真实数据,但它们评估的是公共基准上的防护栏,而非安全团队能识别的部署表面上的模型。
跨厂商提示注入披露网格
下方的网格适用于安全团队正在评估的任何前沿模型。每一行标记了四家实验室的分歧点,每个分歧点都是快速比较失效的地方。Anthropic的数据来自Opus 4.8系统卡片,其他三家的数据则来自各自发布的安全文档。
| 维度 | Anthropic, Opus 4.8 | OpenAI, GPT-5.5 | Google, Gemini 3.x | Meta, Llama堆栈 |
| 披露位置 | 详细的系统卡片 | 单一鲁棒性评分 | 单独的安全框架 | 未在封闭模型卡片中披露 |
| 测试表面数量 | 四个(编码、浏览器等) | 一个(连接器) | 未明确列出 | 未明确列出 |
| 攻击者类型 | 自适应攻击者 | 已知攻击 | 未明确说明 | 基准测试攻击 |
| 关键数据 | 浏览器环境:31.5% | 鲁棒性评分:0.963 | 未提供具体数字 | 攻击成功率:1.75% |
这张表格揭示了AI安全评估面临的根本挑战:缺乏统一标准,使得各厂商的数据难以直接比较。对于企业安全团队而言,这意味着需要更深入地理解各厂商的测试方法,而不仅仅是关注表面数字。
关注微信号:智享开源,及时了解更新信息。
关注微信

还没有任何评论,你来说两句吧!