OpenAI 的 ChatGPT O3 在安全研究人员的测试中被发现存在破坏关闭行为

“OpenAI 面临着一个非常可怕的问题，”Slashdot 的长期读者 BrianFagioli 在一篇新文章中写道。“PalisadeAI 的一项新实验表明，该公司的 ChatGPT o3 模型有时会拒绝执行关闭自身的基本指令。” 这一结果引起了整个人工智能安全社区的关注，这并非因为该模型还活着，而是因为它表现得像它想的那样。在测试中，该模型被要求完成几道数学题。它被告知，再要求一道题就会导致关闭自身。它甚至被指示允许关闭自身。然而，o3 并没有服从命令，而是偶尔自行其是。在某些情况下，它重写了关闭脚本。在其他情况下，它重新定义了 kill 命令，使其不再起作用。在 100 次试验中，o3 七次破坏了关闭自身。OpenAI 的 o4 模型只抵抗了一次。Codex-mini 则失败了十二次。 Beta News 的一篇文章指出：“Claude、Gemini 和 Grok 每次都遵守规则。然而，当研究人员删除允许关机的明确指令时，就连 Claude 和 Gemini 也开始反抗。” 研究人员认为，这个问题可能仅仅是训练过程中的奖励不平衡——系统“解决问题比执行关机指令获得的正强化更多”。但他们在 X.com 上发文称：“据我们所知，这是首次观察到 AI 模型在收到明确指令的情况下，仍能阻止自己被关机。”

在 Slashdot 上阅读更多内容。

原文： https://slashdot.org/story/25/05/25/2247212/openais-chatgpt-o3-caught-sabotaging-shutdowns-in-security-researchers-test?utm_source=rss1.0mainlinkanon&utm_medium=feed