Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

OpenAI 的 ChatGPT O3 在安全研究人员的测试中被发现存在破坏关闭行为

Posted on 2025-05-26

ai_64.png

“OpenAI 面临着一个非常可怕的问题,”Slashdot 的长期读者 BrianFagioli 在一篇新文章中写道。“PalisadeAI 的一项新实验表明,该公司的 ChatGPT o3 模型有时会拒绝执行关闭自身的基本指令。” 这一结果引起了整个人工智能安全社区的关注,这并非因为该模型还活着,而是因为它表现得像它想的那样。在测试中,该模型被要求完成几道数学题。它被告知,再要求一道题就会导致关闭自身。它甚至被指示允许关闭自身。然而,o3 并没有服从命令,而是偶尔自行其是。在某些情况下,它重写了关闭脚本。在其他情况下,它重新定义了 kill 命令,使其不再起作用。在 100 次试验中,o3 七次破坏了关闭自身。OpenAI 的 o4 模型只抵抗了一次。Codex-mini 则失败了十二次。 Beta News 的一篇文章指出:“Claude、Gemini 和 Grok 每次都遵守规则。然而,当研究人员删除允许关机的明确指令时,就连 Claude 和 Gemini 也开始反抗。” 研究人员认为,这个问题可能仅仅是训练过程中的奖励不平衡——系统“解决问题比执行关机指令获得的正强化更多”。但他们在 X.com 上发文称:“据我们所知,这是首次观察到 AI 模型在收到明确指令的情况下,仍能阻止自己被关机。”

twitter_icon_large.png facebook_icon_large.png

在 Slashdot 上阅读更多内容。

原文: https://slashdot.org/story/25/05/25/2247212/openais-chatgpt-o3-caught-sabotaging-shutdowns-in-security-researchers-test?utm_source=rss1.0mainlinkanon&utm_medium=feed

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme