“OpenAI 面临着一个非常可怕的问题,”Slashdot 的长期读者 BrianFagioli 在一篇新文章中写道。“PalisadeAI 的一项新实验表明,该公司的 ChatGPT o3 模型有时会拒绝执行关闭自身的基本指令。” 这一结果引起了整个人工智能安全社区的关注,这并非因为该模型还活着,而是因为它表现得像它想的那样。在测试中,该模型被要求完成几道数学题。它被告知,再要求一道题就会导致关闭自身。它甚至被指示允许关闭自身。然而,o3 并没有服从命令,而是偶尔自行其是。在某些情况下,它重写了关闭脚本。在其他情况下,它重新定义了 kill 命令,使其不再起作用。在 100 次试验中,o3 七次破坏了关闭自身。OpenAI 的 o4 模型只抵抗了一次。Codex-mini 则失败了十二次。 Beta News 的一篇文章指出:“Claude、Gemini 和 Grok 每次都遵守规则。然而,当研究人员删除允许关机的明确指令时,就连 Claude 和 Gemini 也开始反抗。” 研究人员认为,这个问题可能仅仅是训练过程中的奖励不平衡——系统“解决问题比执行关机指令获得的正强化更多”。但他们在 X.com 上发文称:“据我们所知,这是首次观察到 AI 模型在收到明确指令的情况下,仍能阻止自己被关机。”
在 Slashdot 上阅读更多内容。