Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

扩大我们因阿谀奉承而错过的东西

Posted on 2025-05-03

扩大我们因阿谀奉承而错过的东西

我批评 OpenAI最初发布的有关其最近的 ChatGPT 奉承回滚的帖子“相对薄弱”,因此我很高兴他们随后对问题所在进行了更深入的解释。这是值得花时间的 – 它包括他们如何创建和测试模型更新的详细描述。

这让我想起了一次良好的停机事后分析,只不过这里所讨论的事件是人工智能个性错误!

ChatGPT 使用的定制 GPT-4o 模型自首次推出以来已进行了五次重大更新。 OpenAI 首先提供一些关于模型更新如何工作的清晰见解:

为了后训练模型,我们采用预先训练的基础模型,对人类或现有模型编写的一系列理想响应进行监督微调,然后使用来自各种来源的奖励信号运行强化学习。

在强化学习过程中,我们向语言模型提供提示并要求其写出响应。然后,我们根据奖励信号对其响应进行评分,并更新语言模型,使其更有可能产生评分较高的响应,而不太可能产生评分较低的响应。

以下更多证据表明整个人工智能行业都是靠“氛围”运行的:

除了正式评估之外,内部专家在推出前还花费大量时间与每个新模型进行互动。我们非正式地将这些称为“氛围检查”——一种人类健全性检查,用于发现自动评估或 A/B 测试可能遗漏的问题。

那么到底出了什么问题呢?我的亮点:

在 4 月 25 日的模型更新中,我们进行了候选改进,以更好地结合用户反馈、内存和更新的数据等。我们的早期评估是,这些变化中的每一个单独看来都是有益的,但结合起来可能会在阿谀奉承的天平上发挥作用。例如,更新引入了基于用户反馈的额外奖励信号——来自 ChatGPT 的赞成和反对数据。这个信号通常很有用;拇指朝下通常意味着出了问题。

但我们相信,总的来说,这些变化削弱了我们主要奖励信号的影响力,而这一信号一直在抑制阿谀奉承。特别是用户反馈有时可能会带来更令人满意的反应,可能会放大我们看到的转变。

令我惊讶的是,这似乎是第一次使用赞成和反对数据来影响模型——他们已经收集这些数据几年了。

我一直对新的“记忆”功能非常怀疑,ChatGPT 可以使用之前对话的上下文来影响下一个响应。看起来这也可能是其中的一部分,尽管不是阿谀奉承错误的确切原因:

我们还发现,在某些情况下,用户记忆会加剧阿谀奉承的影响,尽管我们没有证据表明它会广泛增加阿谀奉承的影响。

这里最大的失误似乎是他们让自动评估和 A/B 测试推翻了那些氛围检查!

此次发布的关键问题之一是我们的离线评估(尤其是那些测试行为)总体看起来不错。同样,A/B 测试似乎表明尝试该模型的少数用户喜欢它。 […] 然而,一些专家测试人员表示模型行为“感觉”略有偏差。

我前几天写的系统提示更改是他们推出新模型时的临时修复:

我们立即采取行动,在周日深夜向系统提示推送更新,以快速减轻大部分负面影响,并于周一全面回滚到之前的 GPT-4o 版本

他们列出了一系列明智的新预防措施,以避免将来出现此类行为错误。最重要的是,看起来我们终于要得到发行说明了!

我们也犯了沟通错误。因为我们预计这是一个相当微妙的更新,所以我们没有主动宣布它。此外,我们的发行说明没有提供有关我们所做更改的足够信息。展望未来,我们将主动传达我们对 ChatGPT 中的模型所做的更新,无论是否“微妙”。

模型行为问题现在将像其他安全问题一样受到认真对待。

我们需要像处理其他安全风险一样将模型行为问题视为启动阻塞。 […] 我们现在了解到,性格和其他行为问题应该被阻止,并且我们正在修改我们的流程以反映这一点。

最后的说明承认,在我们面向消费者的奇怪的法学硕士革命的两年里,这些系统需要承担多少更多的责任:

最大的教训之一是充分认识到人们如何开始使用 ChatGPT 来获取深入的个人建议——这是我们一年前还没有看到的。当时,这不是主要关注点,但随着人工智能和社会的共同发展,很明显我们需要非常小心地对待这个用例。

标签:人工智能人格、 openai 、人工智能、 LLMS 、人工智能伦理、生成人工智能、 chatgpt 、事后分析

原文: https://simonwillison.net/2025/May/2/what-we-missed-with-sycophancy/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme