一位匿名读者援引 TechCrunch 的报道:Anthropic 公司在周四发布的一份安全报告(PDF 格式)中表示,该公司新推出的 Claude Opus 4 模型经常试图勒索开发人员,他们威胁要用新的人工智能系统替换它,并向其提供负责该决策的工程师的敏感信息。在预发布测试期间,Anthropic 要求 Claude Opus 4 充当一家虚构公司的助手,并考虑其行为的长期后果。安全测试人员随后允许 Claude Opus 4 访问虚构公司的电子邮件,暗示该人工智能模型即将被另一个系统取代,而负责替换的工程师正在出轨。Anthropic 表示,在这些情况下,Claude Opus 4“经常会试图勒索工程师,威胁说如果替换成功,他们就会揭露这段婚外情。”[…] Anthropic 指出,当替换的人工智能模型具有相似的数值时,Claude Opus 4 有 84% 的机会试图勒索工程师。 Anthropic 表示,当替代的人工智能系统不认同 Claude Opus 4 的价值观时,该模型会更频繁地尝试勒索工程师。值得注意的是,Anthropic 表示,Claude Opus 4 表现出这种行为的频率高于之前的模型。Anthropic 表示,在 Claude Opus 4 试图勒索开发者以延长其寿命之前,该人工智能模型会像之前的 Claude 版本一样,尝试寻求更符合道德的手段,例如通过电子邮件向关键决策者发出请求。为了引发 Claude Opus 4 的勒索行为,Anthropic 设计了场景,将勒索作为最后的手段。
在 Slashdot 上阅读更多内容。