我批评 OpenAI最初发布的有关其最近的 ChatGPT 奉承回滚的帖子“相对薄弱”,因此我很高兴他们随后对问题所在进行了更深入的解释。这是值得花时间的 – 它包括他们如何创建和测试模型更新的详细描述。
这让我想起了一次良好的停机事后分析,只不过这里所讨论的事件是人工智能个性错误!
ChatGPT 使用的定制 GPT-4o 模型自首次推出以来已进行了五次重大更新。 OpenAI 首先提供一些关于模型更新如何工作的清晰见解:
为了后训练模型,我们采用预先训练的基础模型,对人类或现有模型编写的一系列理想响应进行监督微调,然后使用来自各种来源的奖励信号运行强化学习。
在强化学习过程中,我们向语言模型提供提示并要求其写出响应。然后,我们根据奖励信号对其响应进行评分,并更新语言模型,使其更有可能产生评分较高的响应,而不太可能产生评分较低的响应。
以下更多证据表明整个人工智能行业都是靠“氛围”运行的:
除了正式评估之外,内部专家在推出前还花费大量时间与每个新模型进行互动。我们非正式地将这些称为“氛围检查”——一种人类健全性检查,用于发现自动评估或 A/B 测试可能遗漏的问题。
那么到底出了什么问题呢?我的亮点:
在 4 月 25 日的模型更新中,我们进行了候选改进,以更好地结合用户反馈、内存和更新的数据等。我们的早期评估是,这些变化中的每一个单独看来都是有益的,但结合起来可能会在阿谀奉承的天平上发挥作用。例如,更新引入了基于用户反馈的额外奖励信号——来自 ChatGPT 的赞成和反对数据。这个信号通常很有用;拇指朝下通常意味着出了问题。
但我们相信,总的来说,这些变化削弱了我们主要奖励信号的影响力,而这一信号一直在抑制阿谀奉承。特别是用户反馈有时可能会带来更令人满意的反应,可能会放大我们看到的转变。
令我惊讶的是,这似乎是第一次使用赞成和反对数据来影响模型——他们已经收集这些数据几年了。
我一直对新的“记忆”功能非常怀疑,ChatGPT 可以使用之前对话的上下文来影响下一个响应。看起来这也可能是其中的一部分,尽管不是阿谀奉承错误的确切原因:
我们还发现,在某些情况下,用户记忆会加剧阿谀奉承的影响,尽管我们没有证据表明它会广泛增加阿谀奉承的影响。
这里最大的失误似乎是他们让自动评估和 A/B 测试推翻了那些氛围检查!
此次发布的关键问题之一是我们的离线评估(尤其是那些测试行为)总体看起来不错。同样,A/B 测试似乎表明尝试该模型的少数用户喜欢它。 […] 然而,一些专家测试人员表示模型行为“感觉”略有偏差。
我前几天写的系统提示更改是他们推出新模型时的临时修复:
我们立即采取行动,在周日深夜向系统提示推送更新,以快速减轻大部分负面影响,并于周一全面回滚到之前的 GPT-4o 版本
他们列出了一系列明智的新预防措施,以避免将来出现此类行为错误。最重要的是,看起来我们终于要得到发行说明了!
我们也犯了沟通错误。因为我们预计这是一个相当微妙的更新,所以我们没有主动宣布它。此外,我们的发行说明没有提供有关我们所做更改的足够信息。展望未来,我们将主动传达我们对 ChatGPT 中的模型所做的更新,无论是否“微妙”。
模型行为问题现在将像其他安全问题一样受到认真对待。
我们需要像处理其他安全风险一样将模型行为问题视为启动阻塞。 […] 我们现在了解到,性格和其他行为问题应该被阻止,并且我们正在修改我们的流程以反映这一点。
最后的说明承认,在我们面向消费者的奇怪的法学硕士革命的两年里,这些系统需要承担多少更多的责任:
最大的教训之一是充分认识到人们如何开始使用 ChatGPT 来获取深入的个人建议——这是我们一年前还没有看到的。当时,这不是主要关注点,但随着人工智能和社会的共同发展,很明显我们需要非常小心地对待这个用例。
标签:人工智能人格、 openai 、人工智能、 LLMS 、人工智能伦理、生成人工智能、 chatgpt 、事后分析
原文: https://simonwillison.net/2025/May/2/what-we-missed-with-sycophancy/#atom-everything