美政府强关Anthropic最强AI，安全警告适得其反

周五，美国政府出于国家安全考量，勒令Anthropic立即停止其两款最顶尖人工智能模型——Claude Fable 5和Claude Mythos 5的服务。Anthropic已在X平台上宣布遵从这一指令，但明确表示对政府的这一决定持保留意见，认为其判断有误。

据Anthropic透露，该指令于美东时间周五下午5:21下达，强制公司彻底切断全球所有用户对这两款模型的访问权限，而不仅仅是针对政府出口管制令名义上限制的外国公民。目前，Anthropic旗下的其他模型未受影响。

为何这两款模型备受关注？

Mythos是Anthropic目前能力最强的AI模型。早在今年4月初，公司便对其进行了预览，并因其卓越的软件漏洞挖掘能力而一直对其加以严格限制。Anthropic指出，Mythos在测试中成功识别了所有主流操作系统和Web浏览器的安全缺陷。鉴于此，公司并未将其公开发布，而是启动了一项名为“Glasswing计划”的管控项目，仅与亚马逊、苹果、谷歌、微软和CrowdStrike等约50家经过严格审查的机构共享，专门用于网络安全的防御性工作。

而仅发布三天的Fable 5，则是Anthropic应对商业压力的产物。这是Mythos的一个衍生版本，增设了防护栏，能够拦截网络安全和生物学等高风险领域的回答。公司辩称，这使得它足够安全，可以公开发布。根据AI技术性能追踪机构Vals AI的基准测试，Fable 5迅速成为公众目前可获取的最强AI模型。

政府的担忧与越狱争议

尽管政府的指令被包装成一项出口管制行动，旨在限制外国人的访问，但Anthropic在一份长文中表示，其理解的核心问题在于Fable 5据称存在的“越狱”风险。公司指出，政府目前仅提供了关于“潜在的狭义非通用越狱”的口头证据。Anthropic描述这种所谓的越狱，本质上只是提示模型读取特定代码库并识别软件缺陷。公司补充道，这种能力水平在包括OpenAI GPT-5.5在内的其他公开模型中已广泛存在，并且也被网络安全专业人员常规性地用于防御目的。

Anthropic进一步辩称，其最强有力的安全机制是通过独立于模型之外的分类器系统来运作的。这意味着，即便有人诱导Fable突破了拒绝回答的防线，针对最危险输出的底层保护机制依然有效。

显然，这些解释未能阻止政府的行动，Anthropic也未掩饰其失望之情。公司写道：“我们不认为发现一个潜在的狭义越狱就应成为召回一款面向数亿用户的商业模型的理由。如果这一标准在全行业适用，我们认为这实际上将导致所有前沿模型提供商停止部署新模型。”

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://techcrunch.com/2026/06/12/anthropics-safety-warnings-may-have-just-backfired-the-government-has-pulled-the-plug-on-its-most-powerful-ai/