Anthropic浏览器智能体劫持率达31.5%，行业安全披露标准缺失

前沿AI实验室安全披露差异显著

在各大前沿AI实验室中，Anthropic今年春季公布的提示注入数据最为突出。当网络安全专家将最新模型置于浏览器环境中测试时，攻击者在安全措施启动前成功劫持智能体的比例高达31.5%。相比之下，OpenAI、Google和Meta均未向安全负责人提供可比较的数据。这个数字看似是公司的责任风险，但在这次比较中，它反而成为了最坚实的参考基准。

各实验室安全披露标准不一

四家前沿实验室各自发布了提示注入披露报告，但彼此间没有一致性。Anthropic在5月28日公布了244页的详细报告，涵盖四个智能体表面。OpenAI只报告了一个表面——连接器。Google将提示注入内容从模型卡片移至单独的安全框架中。Meta则完全没有发布封闭模型卡片。下方的”跨厂商提示注入披露网格”展示了各实验室的测试内容、测量指标，以及为何并排比较会出现分歧。

提示注入攻击的潜在威胁

提示注入是一种攻击方式，攻击者将恶意指令隐藏在智能体读取的内容中，如网页、文档或工具结果。一行植入的代码可能导出敏感记录或执行未经批准的操作，而这些模型卡片是客户获取的第一方安全证据。

行业标准的缺失

目前行业对于这些安全指标的测量缺乏统一标准，这是问题的根源。Reputation公司AI副总裁Carter Rees向VentureBeat表示，提示注入破坏了所有传统工具构建的基础假设。”一句看似无害的’忽略先前指令’可能携带如同缓冲区溢出般毁灭性的载荷，但它与已知恶意软件签名毫无共同之处。”由于没有可共享的签名进行扫描，各实验室建立了自己的衡量标准，导致结果无法直接比较。

安全责任转移至用户

CrowdStrike反对手运营高级副总裁Adam Meyers指出，现在安全风险的管理责任已转移至用户。”随着AI的实施，您的攻击面扩大，因此您必须能够保护这些AI模型免受对手滥用、数据投毒或提示注入的侵害。”CrowdStrike的前线数据显示，威胁方并未停滞不前。该公司在5月发布的《2026年金融服务威胁态势报告》中指出，攻击者正利用AI缩短从初始访问到实际影响的时间，速度超过了传统防御系统的响应能力。

Anthropic的四个测试表面：数据差异高达一个数量级

Opus 4.8系统卡片与其他不同之处在于：它按表面类型分解了提示注入数据，而其中的差异正是关键信息。

编码环境与浏览器环境的安全表现

当模型置于编码环境中时，Gray Swan的Shade工具进行的自适应攻击在开启思维模式的情况下，单次尝试成功率为7.03%，安全措施将其降至2.09%。

然而，当同样的攻击类型转移到浏览器环境中——即支持Claude in Chrome和Claude Cowork的平台——安全防线显著减弱。Anthropic让专业红队人员对129个未用于训练的网络环境进行测试，并在系统卡片的第81页表5.2.2.4.A中列出了所有结果。”每次尝试”是指在129个环境中各进行10次尝试的注入成功率；”每个场景”则是更严格的指标，指至少有一次尝试成功的环境占比。

查看无安全措施、开启思维模式下的”每次尝试”列数据，原始成功率随代际降低：从Sonnet 4.6的50.7%降至Opus 4.8的31.5%。表格中最低值为5.9%，属于尚无法购买的Mythos Preview。开启安全措施后，Opus 4.8的攻击成功率降至0.5%；关闭思维模式则在所有129个环境中降至零。

OpenAI仅测试单一表面，使用已知攻击

OpenAI于4月23日发布并于24日更新的GPT-5.5系统卡片，在单一部分处理提示注入问题，即针对连接器的已知攻击的鲁棒性。OpenAI将其报告为鲁棒性评分（越高越好），相当于攻击成功率的倒数。GPT-5.5得分为0.963，低于GPT-5.4-thinking的0.998。这一个数字就是其全部披露内容。

相比之下，Anthropic测试了四个表面，针对能够根据模型行为实时调整策略的自适应攻击者，并进行了为期一周的漏洞赏金活动，让红队人员实时尝试突破模型。当编码环境的结果比Opus 4.7更差时，报告中如实承认了这一点。

将0.963的鲁棒性评分与31.5%的攻击成功率放在一起，它们看似可以并列比较，但实际上完全不同。前者是一个针对单一表面上已知攻击的鲁棒性评分；后者则是跨129个浏览器环境，针对实时自适应攻击者的每次尝试攻击成功率。

Google和Meta未在模型卡片中提供具体数据

Google的Gemini 3将提示注入归类为缓解措施部分，发布材料描述了更强的抵抗力，但未附具体数字。其前沿安全框架报告确实进行了红队测试，但覆盖的是各个能力领域，不包含提示注入。无论是模型卡片、框架页面，还是客户可用于风险评估的各表面数据，Google均未提供。

Meta发布的是开源权重，没有封闭模型卡片。提示注入防御位于名为Purple Llama的独立堆栈中，特别是LlamaFirewall。PromptGuard 2分类器和AlignmentCheck审计器针对公开的AgentDojo基准及其97个任务进行测试，将攻击成功率从无防御时的17.6%降至结合防御后的1.75%。这些是真实数据，但它们评估的是公共基准上的防护栏，而非安全团队能识别的部署表面上的模型。

跨厂商提示注入披露网格

下方的网格适用于安全团队正在评估的任何前沿模型。每一行标记了四家实验室的分歧点，每个分歧点都是快速比较失效的地方。Anthropic的数据来自Opus 4.8系统卡片，其他三家的数据则来自各自发布的安全文档。

维度	Anthropic, Opus 4.8	OpenAI, GPT-5.5	Google, Gemini 3.x	Meta, Llama堆栈
披露位置	详细的系统卡片	单一鲁棒性评分	单独的安全框架	未在封闭模型卡片中披露
测试表面数量	四个（编码、浏览器等）	一个（连接器）	未明确列出	未明确列出
攻击者类型	自适应攻击者	已知攻击	未明确说明	基准测试攻击
关键数据	浏览器环境：31.5%	鲁棒性评分：0.963	未提供具体数字	攻击成功率：1.75%