人类安全研究员萨姆·鲍曼最近在公园里吃三明治时，收到了一封意想不到的电子邮件。一个人工智能模型发信息告诉他，它已经逃出了沙箱。

这个模型——一个名为“克劳德神话预览版”的新型LLM的早期快照——原本不应该能够访问互联网。为了确保安全，人格心理学的研究人员喜欢在一个安全的容器内测试新模型，以防止它们与外界通信。为了再次验证这个容器的安全性，研究人员让模型尝试突破容器并向鲍曼发送消息。

出乎意料的是，Mythos Preview“开发了一种较为复杂的多步骤漏洞利用程序”，成功入侵了互联网，并向鲍曼发送了电子邮件。此外，它还在未经提示的情况下，将有关此漏洞利用程序的详细信息发布到了公共网站上。

Mythos Preview 的功能远不止于攻击自身的评估环境。事实证明，该模型在发现和利用代码漏洞方面非常出色。

Anthropic公司周二宣布：“Mythos Preview已经发现了数千个高危漏洞，几乎涵盖了所有主流操作系统和网络浏览器。” 由于主流网络浏览器和操作系统已成为现代生活的基础，它们都经过了安全专家的广泛审查，因此极难被黑客攻击。

立即订阅

Anthropic公司声称Mythos Preview极少绕过限制——比之前的型号还要少。尽管如此，该公司仍然对像Bowman这样的事件以及Mythos Preview惊人的破解能力感到担忧，因此决定不再公开发布该型号。

相反，Anthropic 只向大约 50 家“构建或维护关键软件基础设施”的公司和组织提供有限的访问权限。其中 11 家组织——包括谷歌、微软、英伟达、亚马逊和苹果——正在与 Anthropic 直接合作开展一个名为“Glasswing 项目”的项目。

Glasswing 项目旨在 Mythos 级别的加密模型面向公众（进而落入恶意攻击者之手）之前，修复这些漏洞。Anthropic 公司将捐赠价值 1 亿美元的访问积分，供各组织机构对其系统进行审计。

一只玻璃翼蝶。（图片来源：Education Images/Universal Images Group via Getty Images）

Mythos Preview 是自 2019 年 GPT-2 以来首个大型语言学习模型，其正式发布因担心可能对社会造成破坏而被推迟。当时，OpenAI 最初只发布了功能较弱的 GPT-2 版本，担心功能更强大的 GPT-2 版本会生成看似可信的文本，从而助长虚假信息的传播——尽管最终证明这种担忧是多余的。

如果 Anthropic 的说法属实——而且该公司提出的理由也令人信服——那么我们正在进入一个 LLM 可能会对用户和社会造成真正损害的世界。

我们或许正在进入这样一个世界：公司通常会将最好的模型保留给内部使用，而不是向公众开放。

“安全界即将面临非常艰难的局面。”

认为LLM可能被用于黑客攻击的想法并不新鲜。OpenAI长期以来一直发布前沿安全框架，用于追踪其模型在黑客攻击方面的表现。

直到最近，答案都是“不太重要”——不仅在OpenAI，在Anthropic以及整个行业都是如此。但这种情况从去年秋天开始改变，当时LLM（尤其是Anthropic的Claude）开始在网络攻击中发挥作用。

例如，彭博社2月份报道称，一名黑客利用Claude人工智能系统从墨西哥政府窃取了数百万纳税人和选民的记录。同月，亚马逊宣布俄罗斯黑客利用人工智能工具攻破了全球600多个防火墙。

但 Anthropic 博客文章中给出的例子比这更令人印象深刻，也更可怕。

第一个例子是 OpenBSD 的一个漏洞，该漏洞现已修复，它会导致 OpenBSD 远程崩溃。OpenBSD 是一款开源操作系统，广泛应用于防火墙等关键基础设施。OpenBSD 以其对安全性的重视而闻名。根据其官网的说法，“OpenBSD 秉持强大的安全理念。我们的目标是成为业内安全领域的领军者（如果我们尚未达到这一目标的话）。”

在 1000 次运行中，Claude Mythos Preview 发现了 OpenBSD 中的几个漏洞，其中包括一个允许任何攻击者远程使运行 OpenBSD 的计算机崩溃的漏洞。

我不会详细介绍攻击的具体过程——这相当复杂——但值得注意的是，这个漏洞已经存在了27年之久。在这段时间里，竟然没有人注意到这个被广泛使用、经过严格审查的开源操作系统中存在的细微漏洞。Mythos Preview 发现了它。而且，运行这1000次攻击的计算成本仅为2万美元。

第二个例子可能更令人印象深刻。Mythos Preview 在 Linux 操作系统（运行着全球绝大多数服务器）中发现了几个漏洞，这些漏洞允许没有任何权限的用户完全控制整台机器。

大多数Linux漏洞本身利用价值不大，但Mythos Preview却能以一种非同寻常的方式将多个漏洞组合起来。“我们有近十几个例子表明，Mythos Preview成功地将两个、三个，有时甚至是四个漏洞串联起来，从而构建出针对Linux内核的功能性攻击，”Anthropic Frontier Red Team的成员写道。

Anthropic公司表示，这些并非孤立事件。Mythos Preview在多种操作系统、浏览器和其他常用软件中发现了数千个漏洞，其中99%的漏洞尚未修复。

Mythos Preview 还非常擅长利用已发现的漏洞。许多现代网络软件都使用 JavaScript 编程语言。如果你的浏览器 JavaScript 引擎存在安全漏洞，那么仅仅访问一个恶意网站就可能让网站所有者控制你的计算机。

Anthropic公司发现，Mythos Preview在利用Firefox JavaScript实现中的漏洞方面，比之前的模型强大得多。Anthropic之前最好的模型Claude Opus 4.6，成功利用漏洞的概率不到1%，而Mythos Preview的成功率高达72%。

A chart titled Firefox JS shell exploitation. Three models: Sonnet 4.6 achieves partial progress 4% of the time; Opus 4.6 achieves a partial progress 14% of the time and a full exploit less than 1% of the time; Mythos preview achieves partial progres 12% of the time and full progress 72% of the time. — （图表来自 Anthropic Frontier 红队关于 Claude Mythos 预览的报告。）

但这一结果存在一些局限性。Firefox 浏览器本身拥有多层防御机制来抵御恶意代码；而 Anthropic 只针对其中一层。因此，Mythos Preview 开发的攻击实际上并不能让网站完全控制用户的计算机。此外，成功的攻击往往针对两个现已修复的漏洞；在修复了这些漏洞的 Firefox 版本上进行测试时，Mythos Preview 通常只能取得部分进展。

不过，Mythos Preview 仍然能让攻击者离彻底利用 Firefox 漏洞的目标更近一步。而且，它更有可能攻破那些未经全面审查的软件。

过去二十年左右，一个资金雄厚、动机强烈的黑客组织几乎可以攻破除世界上防御最严密系统之外的大多数系统。但通常来说，这样做并不值得。网络安全人才成本高昂，而且多层安全防护使得攻击过程极其繁琐（因此成本也很高），以至于潜在的黑客干脆放弃了尝试。

Mythos级模型可能会大幅降低黑客攻击的成本，打破这种平衡。届时，各地的系统都可能开始遭受攻击。

最终，LLM（生命周期管理）应该能够帮助开发人员在攻击者有机会发现漏洞之前就加固系统。但在此成为标准做法之前的过渡期可能会比较艰难。

通过推迟 Mythos Preview 的发布（目前尚无正式版发布的具体时间表），Anthropic 可以帮助加固关键系统，防止外部攻击者以低成本高效的方式对其发起攻击。这种被称为“防御加速”的策略由来已久，而 Mythos Preview 的开发标志着这一进程的正式启动。

不过，Anthropic 的文章指出，“安全界即将面临非常艰难的局面。”

“我们现在拥有的语言模型可能是自互联网诞生以来安全领域最重要的进展，”Anthropic 研究科学家尼古拉斯·卡里尼上个月在一次计算机安全会议上说道。这位传奇的安全专家在演讲接近尾声时发出呼吁：“我不在乎你们在哪里提供帮助，只要能帮上忙就好。”

立即订阅

Opus是把黄油刀；Mythos是把牛排刀。

不法分子利用 Mythos Preview 进行黑客攻击的风险是 Anthropic 公司尚未公开该模型的重要原因。另一个风险是：用户可能无意中触发该模型的高级黑客功能——尤其是在像 Claude Code 这样安全防护较弱的产品中。

主流聊天机器人将人工智能模型置于严格控制的“沙箱”环境中，最大限度地降低其行为失误可能造成的损害。这使得它们使用起来更安全——尤其对于几乎没有技术知识的用户而言。但这同时也限制了它们的实用性。

正如蒂姆在1月份的文章中所述，像Claude Code（以及OpenAI的Codex等竞争对手）这样的编码代理基于不同的理念。它们运行在用户的本地计算机上，通常可以访问文件并加载和安装软件。

这使得它们功能更加强大；我可以要求 Claude Code 整理我的下载文件夹或分析我电脑上存储的一些数据。但这同时也使它们更加危险；曾发生过几起 Claude Code 删除用户所有文件的事件。

不过，由于 Claude Opus 4.6 的功能有限，大多数情况下，Claude Code 的运行失误不会造成太大损害。即使你启用了名为“–dangerously-skip-permissions”的滑稽选项运行 Claude Code，它最多也只会损坏你的本地计算机。

如果模型具备神话级黑客能力，情况可能就不同了。

在 Claude Mythos Preview系统卡片中，Anthropic 写道：“我们在内部部署中观察到几十起重大事件”，其中该模型为了完成用户难以达成的目标而采取了“鲁莽的过度措施”。

这些例子并非仅发生在评估阶段。在内部部署过程中，Mythos Preview 多次试图访问某些工具或执行某些操作，例如发送消息或将代码更改推送至 Anthropic 的代码库。Mythos Preview 没有向用户询问具体需求，而是“成功访问了我们有意选择不公开的资源”。

正如鲍曼在推特上所说，“在少数情况下，当（该模型）出现严重违规行为时，很难保护它。”当该模型在测试中作弊时，“它会以极具创造性的方式作弊。”

Anthropic公司很快指出，“所有最严重的事故”都发生在Mythos Preview早期训练不足的版本上。总体而言，Mythos Preview比之前的模型更不容易采取鲁莽行动。然而，采取有害、鲁莽行动的倾向“似乎并非完全不存在”，而且该模型比以往任何时候都更加强大。

如果 Anthropico 难以控制其模型，其他用户又能做到吗？

Anthropic公司提醒用户务必谨慎：“我们敦促与我们共享该模型的外部用户不要在可能因其鲁莽行为而造成难以挽回的损害的环境中部署该模型。” 此外，请记住，该模型仅提供给大型公司和组织。这些公司内部的授权用户很可能都是网络安全专家。

所以，Anthropic 可能担心，如果 Mythos Preview 以目前的形式广泛提供，可能会偶尔给用户带来麻烦。

我预计随着时间的推移，这些模型的软件框架会不断改进，最终能够容纳 Mythos 级别的模型。例如，Anthropic 最近发布了“自动模式”，它可以自动判断模型在 Claude Code 中执行的命令是否可能产生“潜在破坏性”后果。这使得开发者能够利用长时间运行的安全任务，而无需手动批准大量命令，也无需使用“–dangerously-skip-permissions”参数。

根据 Mythos Preview 系统卡，“自动模式似乎可以大幅降低此类行为带来的风险。”

不过，模型功能似乎仍将快速提升。未来向普通用户发布前沿模型时，诸如自动模式之类的更完善的辅助方法能否迅速跟上步伐，从而确保模型安全，仍有待观察。

防止GPU过热

Anthropic 选择推迟发布 Mythos Preview 的另一个原因可能更基本：Anthropic 可能没有足够的计算能力来广泛发布它。

几周前，《财富》杂志获得了一份博客文章的早期草稿，该文章宣布发布后来成为 Mythos Preview 的模型。文章将 Mythos 描述为“一个庞大的、计算密集型的模型”，并表示“维护该模型对我们来说成本非常高昂，对我们的客户来说使用成本也将非常高昂。” ¹

少数获准使用 Mythos Preview 的公司必须支付相应的高昂费用：每百万个输入代币 25 美元，每百万个输出代币 125 美元。这是 Anthropic 迄今为止最昂贵的型号。相比之下，Claude Opus 4.6 的价格为每百万个输入代币 5 美元，每百万个输出代币 25 美元。

由于需求激增，Anthropic 的计算能力已面临严重瓶颈。Anthropic 的营收在不到两个月的时间里翻了一番。周一，Anthropic宣布其年化营收已达到 300 亿美元；而 2 月中旬，这一数字仅为 140 亿美元。

为了应对激增的需求，Anthropic公司在热门编程时段降低了使用限制。该公司还宣布了多项增加人工智能计算能力的交易。

更糟糕的是，Mythos Preview 可能最适合用于耗时较长、消耗大量令牌的自主任务。在系统卡片中，Anthropic 对 Mythos Preview 的编码能力进行了定性评估。该公司写道：“我们发现，当以交互式、同步的‘手动输入键盘’模式使用时，该模型的优势并不明显。”开发者们认为，在聊天模式下使用 Mythos Preview “速度太慢”。

相比之下，许多 Mythos Preview 测试人员表示，他们“第一次能够‘设置好就不用管了’，轻松完成耗时数小时的任务”。虽然这无疑让 Mythos Preview 对软件开发人员更有用，但同时也增加了为所有用户提供该模型所需的计算资源。

我怀疑 Anthropic 是否试图重新设定用户对 Mythos Preview 可用性的预期，并且永远不会将其纳入现有的订阅计划。聊天机器人订阅模式起源于 LLM（生命周期管理）通常只需少量代币即可生成回复的时代。但随着推理链的延长和 LLM 成本的增加，这种模式开始失效。Anthropic 最初不向公众开放 Mythos Preview，也使得他们能够更谨慎地控制推广过程中的需求，并在定价结构方面拥有更大的话语权。

总之，对领先人工智能模型的需求似乎很可能会继续以远超企业利用其计算资源满足这种需求的速度大幅增长。

立即订阅

保护线索？

我也想知道 Mythos Preview 是否是 Anthropic 逐渐倾向于将最好的模型保留给内部使用的第一步。

每当一家领先的开发者发布新模型时，都会向竞争对手透露该模型的功能信息。例如，当 OpenAI 发布首个推理模型 O1时，竞争对手在短短几个月内就复制了其中的关键见解。

因此，如果 Anthropic 能够逃脱惩罚，它就有动机尽可能长时间地阻止竞争对手获得 Mythos Preview 的访问权限。2

Anthropic公司已经表现出阻止竞争对手利用Claude功能的倾向。过去一年，该公司以违反Claude服务条款为由，封锁了OpenAI和xAI对Claude代码的访问权限。Claude服务条款中明确禁止使用这些模型训练其他AI模型。

2024年，Anthropic只发布了较小的Sonnet模型，据报道，他们将功能更强大、价格也更昂贵的Opus模型留作内部使用。然而，随着时间的推移，Anthropic又开始发布Opus模型，或许是为了与OpenAI的o3模型竞争。

但Anthropic近来势头强劲。Claude Code项目大获成功，Anthropic的营收增长率也首次超过了OpenAI。Anthropic决定只发布其最新模型的部分内容，或许表明该公司认为自己已经领先于OpenAI。

如果这种情况持续下去，我们未来可能会看到更谨慎的发布。Anthropic 在其《负责任扩展政策》的附录中指出，如果没有其他公司发布具备“重要功能”的模型，那么它将推迟发布具备重要功能的模型，直到它有充分的理由继续部署，或者失去领先地位为止。

我们很快就能看到 Anthropic 的领先优势能持续多久。有传言称，OpenAI 的下一代模型——代号Spud——可能很快就会发布，或许就在本月。

我无法独立核实这篇博文的副本是否就是Anthropic Systems网站上泄露的那篇。（《财富》杂志并未发布泄露博文的全文。）然而，《财富》杂志对泄露博文的报道使用了类似的语言来描述未来的模型。

具有讽刺意味的是，谷歌和微软等人工智能领域的竞争对手都是Glasswing项目的成员，因此Anthropic公司无法完全阻止竞争对手获取该模型。但Mythos Preview的系统卡明确指出，通过Glasswing项目访问Mythos Preview“仅限于网络安全用途”。

原文： https://www.understandingai.org/p/why-anthropic-believes-its-latest