扩大我们因阿谀奉承而错过的东西

我批评 OpenAI最初发布的有关其最近的 ChatGPT 奉承回滚的帖子“相对薄弱”，因此我很高兴他们随后对问题所在进行了更深入的解释。这是值得花时间的 – 它包括他们如何创建和测试模型更新的详细描述。

这让我想起了一次良好的停机事后分析，只不过这里所讨论的事件是人工智能个性错误！

ChatGPT 使用的定制 GPT-4o 模型自首次推出以来已进行了五次重大更新。 OpenAI 首先提供一些关于模型更新如何工作的清晰见解：

为了后训练模型，我们采用预先训练的基础模型，对人类或现有模型编写的一系列理想响应进行监督微调，然后使用来自各种来源的奖励信号运行强化学习。

在强化学习过程中，我们向语言模型提供提示并要求其写出响应。然后，我们根据奖励信号对其响应进行评分，并更新语言模型，使其更有可能产生评分较高的响应，而不太可能产生评分较低的响应。

以下更多证据表明整个人工智能行业都是靠“氛围”运行的：

除了正式评估之外，内部专家在推出前还花费大量时间与每个新模型进行互动。我们非正式地将这些称为“氛围检查”——一种人类健全性检查，用于发现自动评估或 A/B 测试可能遗漏的问题。

那么到底出了什么问题呢？我的亮点：

在 4 月 25 日的模型更新中，我们进行了候选改进，以更好地结合用户反馈、内存和更新的数据等。我们的早期评估是，这些变化中的每一个单独看来都是有益的，但结合起来可能会在阿谀奉承的天平上发挥作用。例如，更新引入了基于用户反馈的额外奖励信号——来自 ChatGPT 的赞成和反对数据。这个信号通常很有用；拇指朝下通常意味着出了问题。

但我们相信，总的来说，这些变化削弱了我们主要奖励信号的影响力，而这一信号一直在抑制阿谀奉承。特别是用户反馈有时可能会带来更令人满意的反应，可能会放大我们看到的转变。

令我惊讶的是，这似乎是第一次使用赞成和反对数据来影响模型——他们已经收集这些数据几年了。

我一直对新的“记忆”功能非常怀疑，ChatGPT 可以使用之前对话的上下文来影响下一个响应。看起来这也可能是其中的一部分，尽管不是阿谀奉承错误的确切原因：

我们还发现，在某些情况下，用户记忆会加剧阿谀奉承的影响，尽管我们没有证据表明它会广泛增加阿谀奉承的影响。

这里最大的失误似乎是他们让自动评估和 A/B 测试推翻了那些氛围检查！

此次发布的关键问题之一是我们的离线评估（尤其是那些测试行为）总体看起来不错。同样，A/B 测试似乎表明尝试该模型的少数用户喜欢它。 […] 然而，一些专家测试人员表示模型行为“感觉”略有偏差。

我前几天写的系统提示更改是他们推出新模型时的临时修复：

我们立即采取行动，在周日深夜向系统提示推送更新，以快速减轻大部分负面影响，并于周一全面回滚到之前的 GPT-4o 版本

他们列出了一系列明智的新预防措施，以避免将来出现此类行为错误。最重要的是，看起来我们终于要得到发行说明了！

我们也犯了沟通错误。因为我们预计这是一个相当微妙的更新，所以我们没有主动宣布它。此外，我们的发行说明没有提供有关我们所做更改的足够信息。展望未来，我们将主动传达我们对 ChatGPT 中的模型所做的更新，无论是否“微妙”。

模型行为问题现在将像其他安全问题一样受到认真对待。

我们需要像处理其他安全风险一样将模型行为问题视为启动阻塞。 […] 我们现在了解到，性格和其他行为问题应该被阻止，并且我们正在修改我们的流程以反映这一点。

最后的说明承认，在我们面向消费者的奇怪的法学硕士革命的两年里，这些系统需要承担多少更多的责任：

最大的教训之一是充分认识到人们如何开始使用 ChatGPT 来获取深入的个人建议——这是我们一年前还没有看到的。当时，这不是主要关注点，但随着人工智能和社会的共同发展，很明显我们需要非常小心地对待这个用例。

标签：人工智能人格、 openai 、人工智能、 LLMS 、人工智能伦理、生成人工智能、 chatgpt 、事后分析

原文： https://simonwillison.net/2025/May/2/what-we-missed-with-sycophancy/#atom-everything