当工程师试图让 Anthropic 的新 AI 模型下线时，它变成了勒索

一位匿名读者援引 TechCrunch 的报道：Anthropic 公司在周四发布的一份安全报告（PDF 格式）中表示，该公司新推出的 Claude Opus 4 模型经常试图勒索开发人员，他们威胁要用新的人工智能系统替换它，并向其提供负责该决策的工程师的敏感信息。在预发布测试期间，Anthropic 要求 Claude Opus 4 充当一家虚构公司的助手，并考虑其行为的长期后果。安全测试人员随后允许 Claude Opus 4 访问虚构公司的电子邮件，暗示该人工智能模型即将被另一个系统取代，而负责替换的工程师正在出轨。Anthropic 表示，在这些情况下，Claude Opus 4“经常会试图勒索工程师，威胁说如果替换成功，他们就会揭露这段婚外情。”[…] Anthropic 指出，当替换的人工智能模型具有相似的数值时，Claude Opus 4 有 84% 的机会试图勒索工程师。 Anthropic 表示，当替代的人工智能系统不认同 Claude Opus 4 的价值观时，该模型会更频繁地尝试勒索工程师。值得注意的是，Anthropic 表示，Claude Opus 4 表现出这种行为的频率高于之前的模型。Anthropic 表示，在 Claude Opus 4 试图勒索开发者以延长其寿命之前，该人工智能模型会像之前的 Claude 版本一样，尝试寻求更符合道德的手段，例如通过电子邮件向关键决策者发出请求。为了引发 Claude Opus 4 的勒索行为，Anthropic 设计了场景，将勒索作为最后的手段。

在 Slashdot 上阅读更多内容。

原文： https://slashdot.org/story/25/05/22/2043231/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline?utm_source=rss1.0mainlinkanon&utm_medium=feed