所以,法学硕士在推特上很烂。这听起来有点诗意,因为推特上充斥着各种机器人。尽管他们有时想调皮捣蛋,有时又想友善待人,但大多数时候还是很烂。有些任务做得非常好,有些任务做得非常糟糕。而写作是最难的一项。
我的朋友我和她开玩笑说,文字是这些神奇机器的核心,如果我们能训练一个模型让它变得更好,那该有多好?我们最初的想法是,能否创造出一个能够用真实事实、论据等等撰写文章的人工智能记者。既然我们设想的是会写作的人工智能,我们就给它取名为 Walter。这源于白芝浩和克朗凯特。我们认为它必须是可行的,至少在小范围内可行。因此,我们尝试了这个实验(论文链接在此) 1 。
这与数学或编程不同,尤其困难,因为你怎么知道正确答案是什么?答案真的存在吗?为了使训练更容易、回报更丰厚,我们想到了尝试撰写推文大小的文章。于是,Walter 变成了一个小型、古怪、却出奇高效的引擎,它收集关于文章的社交媒体数据,观察人们的反应,并通过强化学习训练自己,从而写出更好的文章2 。
正如艾略特曾经说过的,“在想法/和现实/之间/…阴影笼罩着。”这是我们试图用 RLNVR 点亮一盏小灯:这是我们对“未经验证的奖励的强化学习”的俏皮缩写。
那么,为什么选择小模型呢?嗯,除了 GPU 性能差之外,一个重要原因是大模型具有韧性。它们就像装有强力减震器的汽车,即使你做出愚蠢的假设,它们也能宽容地处理。小模型则不然。它们很笨。正因为它们笨,你才被迫变得聪明。
我的意思是,如果你真的想理解某件事,最好的方法就是试着向别人解释。这会迫使你在自己的脑海里理清思路。你的学生越迟钝、越愚笨,你就越需要把事情分解成越来越简单的想法。而这正是编程的精髓。当你把一个复杂的想法分解成连愚蠢的机器都能处理的小步骤时,你自己肯定也学到了一些。老师通常比学生学到的更多。
这也使得奖励模型尤为有趣。因为每当你认为自己已经想出了一个好的奖励模型时,如果在衡量奖励的方式上存在任何弱点或缺陷,一个小模型就会找到它并无情地利用它。古德哈特定律不仅适用于管理。
这并不是说只有小型模型才能做到这一点;当然,我们也看到大型模型奖励黑客攻击并吸取它们不应该吸取的教训。但看到一个拥有 5 亿个参数的模型学会了如何仅通过输出令牌来欺骗你精心设计的评估标准,这真是令人着迷。这充分证明了 Transformer 的强大之处,因为无论你创建的平衡计分卡有多复杂,它们都能找到破解它的方法。调整赋予不同元素的特定权重,对抗对具有足够 skeets、惩罚和相似性阈值的文章的抽样偏见……所有这些都是它们的优势。
我们还应该指出,社交媒体参与度数据作为训练信号存在严重缺陷。它有点“众所周知”,但在实际使用之前,很难想象它到底有多糟糕。我们首先采集了 Bluesky 的 skeets 及其参与度信号(点赞、转发、回复)。由于我们想要真实的信号,我们决定使用 URL 作为组织者:我们将所有指向同一 URL 的 skeets 分组,然后让模型为该文章生成一个新的 skeets。对于奖励,我们使用嵌入来计算最相似的历史帖子(这种方法效果最好),然后进行完整性检查,最后根据这些帖子的表现进行排名。
这次的外部世界,就像许多情况一样,也存在着一些问题。例如:
-
偏见。大账号似乎“更好”,因为他们比发布类似内容的小账号获得更多有趣的反馈。马太效应在社交媒体上确实存在。为了解决这个问题,我们必须进行基线标准化:根据帖子作者的平常水平对帖子进行评分。原始参与度减去作者的基线参与度,会将“你的账号有多大?”变成“这对你来说是否异常好?”。
-
稀疏性。你得到的是一篇帖子和一个结果,而不是十个 A/B 版本。为此,我们尝试了基于最大值的语义迁移:对于新帖子,找到关于同一篇文章的最相似的单个历史帖子,并将相似度奖励给表现最佳的帖子。最大迁移比我们预期的更重要。在这个领域,合适的“老师”是特定的优秀先验,而不是相当不错的先验的平均值。
但这种混乱、有偏差、稀疏的信号是唯一存在的反馈。这个世界不会给出清晰的训练标签。它只会告诉你人们实际做了什么,而你必须弄清楚如何从中学习。
这一切将一次性的、混乱的结果转化为密集的信号。我们最初使用 GRPO 进行训练,后来升级到使用 GSPO 进行训练,并添加了裁剪和 KL 约束来保持语音锚定4 。我们还添加了 UED(无监督环境设计),使课程能够自组织:选择策略显示遗憾/方差的链接目标,并在那里进行推送5 。
在训练之前,该模型通常会进行回避、链接转储,并添加大量标签。训练后,它明显好多了。它提出了利害关系,暗示了新颖性,并且很少添加标签。当我们对同一个网址进行 A/B 测试时,训练结果就是你实际会发布的。例如:
-
之前(基础模型):🚀 SpaceX 的星际飞船成功降落在卡纳维拉尔角!🚀 #SpaceX #Starship #CapeCanaveral Landing 🚀 #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX #SpaceX
-
之后(训练好的模型):🚀 SpaceX 的星际飞船已成功降落在卡纳维拉尔角,标志着未来任务的关键里程碑。#SpaceX #星际飞船 #着陆 #火星
法学硕士(LLM)们很喜欢在推文里加标签。短期内,这些标签并没有完全消失,但确实减少了很多,而且变得更好了。不过,我承认我对第一个标签情有独钟,因为它充满了热情!同样,为了好玩,这里有一个关于关税的标签:
-
之前:一家大型复古手持设备制造商因关税问题停止了所有美国发货……#retrohandheld #retrohandheld #retrohandheld #tariffs #trade
-
之后:🎮 一家顶级复古掌机品牌因关税暂停了美国发货。这对进口产品、改装爱好者和收藏家来说影响巨大。你的替代方案是什么?#复古游戏 #关税
但对我们来说最有趣的部分是,这种模式可以扩展到任何信号微弱、混乱的地方,也就是现实生活中的大部分地方。所以,理论上,这里的想法也应该可以扩展到其他领域:
-
创意写作:针对完成/保存进行优化;从之前的点击中转移。
-
教育:优化保留/任务时间;从有帮助的解释中转移。
-
产品文档/用户体验:针对任务完成度/帮助性进行优化;按产品领域和发布进行基准测试。
-
研究交流:针对专家参与/引用进行优化;以地点/社区为基准。
获取原始数据;对明显的偏差进行归一化;迁移通过相似性起作用的方法,无论你想如何计算或分析它;保持循环的数值稳定;并添加小而清晰的惩罚来阻止退化策略。并且要极其警惕模型奖励黑客攻击。这将以微妙而明显的方式发生,这更像是在编造一个故事,而不是编写一个程序。这也会让你深刻地体会到惨痛的教训,并让你意识到这些模型对学习你抛给它们的任何知识有着如饥似渴的渴望,不择手段。
未来几年将迎来一场绝对的“管理爆炸”,届时我们将尝试制定更好的评分标准和评分系统,包括使用最智能的模型进行自我评分,同时训练模型执行各种任务。整个项目都围绕着当前方法和小型模型的局限性展开。当 GPT-5 撰写优秀的社交帖子6 时,你无法判断它是学习了一般原则还是仅仅记住了模式。
当一个 5 亿像素的模型在你主要用来刷 Twitter 的笔记本电脑上离线完成一项微小任务时,感觉真是太棒了。一定要看看这篇论文。感觉智能真的可以无限延伸,你很快就会进入一个赛博朋克世界,在那里,模型可以随时随地运行,完成各种日常和复杂的任务。
请注意,这里的“更好”并不仅仅意味着“不惜一切代价优化参与度”。相反,它意味着更加微妙的“学习在这个奇怪的小媒介中读起来好、传播起来好的潜在规则”。
“如果不接受前额叶切除术,我的学习成绩很难会比我的学生差很多。”
举个例子或许能有所帮助。10 个人发布了同一篇关于 SpaceX 的文章。根据每位作者的基线,将他们的参与度标准化(例如,45 vs 20 → +25;210 vs 200 → +10;12 vs 5 → +7)。嵌入所有帖子。对于新的候选,计算与每篇帖子的余弦相似度,并取最大值(相似度 × 标准化权重)。如果最佳匹配的 sim 值为 0.82,权重为 0.9,则奖励 ≈ 0.74。没有实时 A/B 测试;信号来自“效仿最有效的方法”。
早期训练遵循经典的路线:多样化探索 → 部分收敛 → 崩溃风险。通过 GSPO 式的正则化、较小的 KL 护栏和轻微的惩罚,循环保持开放,并输出结果向历史赢家靠拢。
*如果