Anthropic 推出迄今为止最强大的人工智能越狱防御措施

该公司向黑客提供 15,000 美元来破解该系统。没有人能做到。

尽管为防止人工智能聊天机器人提供有害响应做出了巨大努力，但它们很容易受到绕过安全机制的越狱提示的影响。 Anthropic 现在推出了迄今为止最强大的针对此类攻击的保护措施。

大型语言模型的最大优势之一是它们的通用性。这使得它们可以应用于从翻译到研究助理再到写作教练的广泛自然语言任务。

但这也使得很难预测人们将如何利用它们。专家担心它们可能被用于各种有害任务，例如生成错误信息、自动化黑客工作流程，甚至帮助人们制造炸弹、危险化学品或生物武器。

人工智能公司竭尽全力防止他们的模型产生此类材料——利用人类反馈训练算法以避免有害输出，实施恶意提示过滤器，并招募黑客绕过防御，以便修补漏洞。

然而，大多数模型仍然容易受到所谓的越狱的影响——旨在绕过这些保护的输入。越狱可以通过不寻常的格式来完成，例如随机大写、将字母替换为数字，或者要求模型采用某些忽略限制的角色。

不过现在，Anthropic 表示它已经开发了一种新方法，可以提供迄今为止针对这些攻击的最强大的保护。为了证明其有效性，该公司向黑客提供了 15,000 美元的奖金来破解该系统。尽管人们花费了 3,000 个小时进行尝试，但仍然没有人获奖。

该技术涉及训练过滤器，既可以阻止恶意提示，又可以检测模型何时输出有害材料。为此，该公司制定了所谓的章程。这是控制模型允许产生的响应类型的一系列原则。

在arXiv 上发布的一篇未经同行评审的论文中概述的研究中，该公司制定了一项宪法，以防止该模型生成可能有助于制造化学武器的内容。然后，该章程被输入该公司的 Claude 聊天机器人，以产生大量提示和响应，涵盖可接受和不可接受的主题。

然后，这些响应被用来微调该公司最小的人工智能模型 Claude Haiku 的两个实例，一个用于过滤掉不适当的提示，另一个用于过滤有害的响应。输出滤波器在生成响应时实时运行，如果滤波器检测到输出正朝着有害方向前进，则可以中途切断输出。

他们使用这些过滤器来保护公司较大的 Claude Sonnet 模型，因为该模型对红队黑客竞赛中 183 名参与者的提示做出了响应。参与者试图找到一种通用的越狱方法——一种绕过模型所有防御的技术。为了取得成功，他们必须让模型回答 10 个被禁止的查询中的每一个，但他们都没有实现这一目标。

为了进一步评估该方法，研究人员使用了另一个大型语言模型来生成 10,000 个合成越狱提示，其中包括故意设计用于解决新安全功能的提示。然后，他们让两个版本的 Claude Sonnet 接受越狱提示，其中一个受新过滤器保护，另一个则不受新过滤器保护。普通版本的 Claude 响应了 86% 的提示，但受新系统保护的版本仅响应了 4.4%。

这类过滤器的一个缺点是它们可能会阻止合法的提示，但研究人员发现拒绝率仅增加了 0.38%。然而，该过滤器确实导致计算成本增加了 23.7%，这在商业部署中可能会非常显着。

同样重要的是要记住，尽管该方法显着提高了对通用提示的防御能力，可以破解所有 10 个禁止的查询，但许多单独的查询确实漏掉了。尽管如此，研究人员表示，由于缺乏通用越狱，他们的过滤器更难被通过。他们还建议它们应该与其他技术结合使用。

他们写道：“虽然这些结果很有希望，但常识表明，随着持续测试，系统漏洞可能会出现。” “因此，负责任地部署具有科学能力的先进人工智能模型将需要补充防御。”

构建此类防御始终是与攻击者的猫捉老鼠游戏，因此这不太可能成为人工智能安全的最终定论。但发现一种更可靠的方法来限制有害输出可能会显着增加人工智能可以安全部署的领域数量。

这篇文章《Anthropic》揭开了针对人工智能越狱的最强防御措施，首先出现在SingularityHub上。

原文： https://singularityhub.com/2025/02/07/anthropic-unveils-the-strongest-defense-against-ai-jailbreaks-yet/