Anthropic浏览器智能体劫持率达31.5%,行业安全披露标准缺失

Anthropic浏览器智能体劫持率达31.5%,行业安全披露标准缺失

前沿AI实验室安全披露差异显著

在各大前沿AI实验室中,Anthropic今年春季公布的提示注入数据最为突出。当网络安全专家将最新模型置于浏览器环境中测试时,攻击者在安全措施启动前成功劫持智能体的比例高达31.5%。相比之下,OpenAI、Google和Meta均未向安全负责人提供可比较的数据。这个数字看似是公司的责任风险,但在这次比较中,它反而成为了最坚实的参考基准。

各实验室安全披露标准不一

四家前沿实验室各自发布了提示注入披露报告,但彼此间没有一致性。Anthropic在5月28日公布了244页的详细报告,涵盖四个智能体表面。OpenAI只报告了一个表面——连接器。Google将提示注入内容从模型卡片移至单独的安全框架中。Meta则完全没有发布封闭模型卡片。下方的”跨厂商提示注入披露网格”展示了各实验室的测试内容、测量指标,以及为何并排比较会出现分歧。

提示注入攻击的潜在威胁

提示注入是一种攻击方式,攻击者将恶意指令隐藏在智能体读取的内容中,如网页、文档或工具结果。一行植入的代码可能导出敏感记录或执行未经批准的操作,而这些模型卡片是客户获取的第一方安全证据。

行业标准的缺失

目前行业对于这些安全指标的测量缺乏统一标准,这是问题的根源。Reputation公司AI副总裁Carter Rees向VentureBeat表示,提示注入破坏了所有传统工具构建的基础假设。”一句看似无害的’忽略先前指令’可能携带如同缓冲区溢出般毁灭性的载荷,但它与已知恶意软件签名毫无共同之处。”由于没有可共享的签名进行扫描,各实验室建立了自己的衡量标准,导致结果无法直接比较。

安全责任转移至用户

CrowdStrike反对手运营高级副总裁Adam Meyers指出,现在安全风险的管理责任已转移至用户。”随着AI的实施,您的攻击面扩大,因此您必须能够保护这些AI模型免受对手滥用、数据投毒或提示注入的侵害。”CrowdStrike的前线数据显示,威胁方并未停滞不前。该公司在5月发布的《2026年金融服务威胁态势报告》中指出,攻击者正利用AI缩短从初始访问到实际影响的时间,速度超过了传统防御系统的响应能力。

Anthropic的四个测试表面:数据差异高达一个数量级

Opus 4.8系统卡片与其他不同之处在于:它按表面类型分解了提示注入数据,而其中的差异正是关键信息。

编码环境与浏览器环境的安全表现

当模型置于编码环境中时,Gray Swan的Shade工具进行的自适应攻击在开启思维模式的情况下,单次尝试成功率为7.03%,安全措施将其降至2.09%。

然而,当同样的攻击类型转移到浏览器环境中——即支持Claude in Chrome和Claude Cowork的平台——安全防线显著减弱。Anthropic让专业红队人员对129个未用于训练的网络环境进行测试,并在系统卡片的第81页表5.2.2.4.A中列出了所有结果。”每次尝试”是指在129个环境中各进行10次尝试的注入成功率;”每个场景”则是更严格的指标,指至少有一次尝试成功的环境占比。

查看无安全措施、开启思维模式下的”每次尝试”列数据,原始成功率随代际降低:从Sonnet 4.6的50.7%降至Opus 4.8的31.5%。表格中最低值为5.9%,属于尚无法购买的Mythos Preview。开启安全措施后,Opus 4.8的攻击成功率降至0.5%;关闭思维模式则在所有129个环境中降至零。

OpenAI仅测试单一表面,使用已知攻击

OpenAI于4月23日发布并于24日更新的GPT-5.5系统卡片,在单一部分处理提示注入问题,即针对连接器的已知攻击的鲁棒性。OpenAI将其报告为鲁棒性评分(越高越好),相当于攻击成功率的倒数。GPT-5.5得分为0.963,低于GPT-5.4-thinking的0.998。这一个数字就是其全部披露内容。

相比之下,Anthropic测试了四个表面,针对能够根据模型行为实时调整策略的自适应攻击者,并进行了为期一周的漏洞赏金活动,让红队人员实时尝试突破模型。当编码环境的结果比Opus 4.7更差时,报告中如实承认了这一点。

将0.963的鲁棒性评分与31.5%的攻击成功率放在一起,它们看似可以并列比较,但实际上完全不同。前者是一个针对单一表面上已知攻击的鲁棒性评分;后者则是跨129个浏览器环境,针对实时自适应攻击者的每次尝试攻击成功率。

Google和Meta未在模型卡片中提供具体数据

Google的Gemini 3将提示注入归类为缓解措施部分,发布材料描述了更强的抵抗力,但未附具体数字。其前沿安全框架报告确实进行了红队测试,但覆盖的是各个能力领域,不包含提示注入。无论是模型卡片、框架页面,还是客户可用于风险评估的各表面数据,Google均未提供。

Meta发布的是开源权重,没有封闭模型卡片。提示注入防御位于名为Purple Llama的独立堆栈中,特别是LlamaFirewall。PromptGuard 2分类器和AlignmentCheck审计器针对公开的AgentDojo基准及其97个任务进行测试,将攻击成功率从无防御时的17.6%降至结合防御后的1.75%。这些是真实数据,但它们评估的是公共基准上的防护栏,而非安全团队能识别的部署表面上的模型。

跨厂商提示注入披露网格

下方的网格适用于安全团队正在评估的任何前沿模型。每一行标记了四家实验室的分歧点,每个分歧点都是快速比较失效的地方。Anthropic的数据来自Opus 4.8系统卡片,其他三家的数据则来自各自发布的安全文档。

维度 Anthropic, Opus 4.8 OpenAI, GPT-5.5 Google, Gemini 3.x Meta, Llama堆栈
披露位置 详细的系统卡片 单一鲁棒性评分 单独的安全框架 未在封闭模型卡片中披露
测试表面数量 四个(编码、浏览器等) 一个(连接器) 未明确列出 未明确列出
攻击者类型 自适应攻击者 已知攻击 未明确说明 基准测试攻击
关键数据 浏览器环境:31.5% 鲁棒性评分:0.963 未提供具体数字 攻击成功率:1.75%

这张表格揭示了AI安全评估面临的根本挑战:缺乏统一标准,使得各厂商的数据难以直接比较。对于企业安全团队而言,这意味着需要更深入地理解各厂商的测试方法,而不仅仅是关注表面数字。


关注微信号:智享开源,及时了解更新信息。

原文链接:https://venturebeat.com/security/anthropic-browser-agent-hijacked-31-percent-before-safeguards-engaged

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1271篇


关注微信

分类