范式 – 搞英语 → 看世界

在过去的十年中，一些最引人注目的人工智能突破——AlphaGo、AlphaStar、AlphaFold ¹ 、VPT、OpenAI Five、ChatGPT——都有一个共同的主线：它们从大规模数据收集（自我监督或模仿学习，或 SSL）开始，然后使用强化学习来改进其性能以实现特定目标。这种一般知识获取与专注、奖励驱动的专业化的结合已经成为一种范式，通过它我们可以可靠地训练人工智能系统在任意任务上表现出色。

我想谈谈它如何以及为何如此有效。

¹ – AlphaFold 2 技术上不使用强化学习；相反，它通过拒绝采样进行蒸馏，具有类似的（如果适应性较差）结果。

概括

近年来，我们发现将 SSL 应用于高度通用的数据集可以提高鲁棒性，从而提高我们的模型在下游任务中的实用性。因此，大型实验室推出的模型越来越多地在各种交错文本、图像、视频和音频语料库上进行自我预测目标的训练。

相比之下，强化学习训练仍然相当“狭隘”。我上面提到的所有系统都经过强化学习训练，可以优化一些相当具体的东西：例如，玩好游戏或者与与你交谈的人互动并提供帮助。

去年，许多顶级研究实验室似乎发生了一些事情：他们开始投资于更“通用”的强化学习优化。我们不是使用强化学习来优化模型来玩好一款游戏，而是优化它们来解决复杂的数学问题、编写正确的代码、导出连贯的形式证明、玩所有游戏、编写大量的研究文档、操作计算机等。

这似乎有效！使用通用 RL 训练的推理模型在我们所知的衡量模型性能的每个基准上都超越了 SSL。这里正在发生一些事情，值得关注。

一些术语

当使用 RL 目标进行训练时，您不再学习对数据分布进行建模 – 您正在学习采样策略。这意味着什么？

您可以将从自回归模型（例如一次采样一个“令牌”的模型）中采样视为对一系列操作进行采样 – 每个令牌都是一个操作。可以通过在过程中随时插入非采样令牌来将观察结果注入到链中。这一系列的行动和观察被称为“轨迹”。它是模型与某些外部环境之间一系列交互的因果推出。

当我们说我们正在学习一项政策时，这意味着我们正在教授一个模型一组用于生成有用轨迹的过程。这里的“有用”是由您引入的奖励函数定义的。有用的轨迹是实现目标的可能性很高的轨迹。

这些过程可以被认为是模型学习使用的小“子例程”，作为解决它经常遇到的问题类别的有效方法。更加努力地思考可能是其中之一。学习用 C++ 编写常见算法可能是另一回事。它们在人类的经历中具有相似之处——在我的一生中，我学会了如何说话、在键盘上打字、倒水、转动螺丝刀、种植种子、搬运重物、开车——这样的例子不胜枚举。在所有情况下，我都学会了下意识地做这些事情。这只能通过学习子程序来实现，我可以将这些子程序链接在一起以实现我的目标。我们看到政策模型学会做同样的事情。

纠错

我怀疑政策学习最有影响力的最终结果是学习纠错。似然训练教会模型如何模仿智能代理，但它并没有告诉模型如果智能代理被置于极不可能的场景中会做什么——比如如果做出了非常糟糕的预测，就会发生这种情况。像这样做出糟糕的预测被称为“偏离流形”。这类似于您日常生活中发生的意外情况。让自己回到“多方面”可以让你继续以目标为导向的行为。这是纠错。

这是关于完全依赖 SSL 的一个肮脏的小秘密：我们的模型总是会失败，而且它们会以生成预训练数据的人没有预料到或遇到的方式失败。因此，预训练数据并不总是包含指导模型执行现实世界中所需的纠错的示例。因此，我们的 SSL 模型可能永远无法在所有级别上可靠地纠正错误。

相比之下，一般的强化学习模型很早就学习纠错策略。我们在推理模型中看到了这一点，他们倾向于再次猜测自己的想法。像“但是”、“除了”、“也许”等词会触发模型回顾前几代，并发现由于天真、执行不力的探索或随机偶然而犯下的错误。

意向性和细化

最初几次我们做一项复杂的任务时，我们说我们正在“学习”这项任务。对于许多任务来说，这个过程是非常有意的：我们事先研究，制定计划，然后在大量插入的思考中慢慢执行。对于发生得太快而无法思考的任务，我们会花时间进行事后汇报。当我们一遍又一遍地重复这项任务时，意向性就消失了。我们构建了我之前讨论过的心理子程序。

该范式的核心组成部分是将观察、计划和行动的循环提炼为更简单的观察和行动的循环。这种蒸馏过程以前是离线过程。我们构建模型，部署它们并研究它们如何与环境交互。我们标记了好的行为和坏的行为，并使用这些标签来训练更好的模型。这在很大程度上是过去两年法学硕士进步的推动力。

现在我们可以构建通过更多“思考”来改进自身的算法，我预计这种自我改进的过程将会加速。它可能会定义未来几年（可能是几十年）机器学习的进展。我们将越来越多地将强化学习技术应用于新的领域或应用程序，生成大量高质量的“策略上”数据，并将这些数据输入 SSL 体系中。基本模型将变得更加智能，我们将使用它们对日益多样化的问题进行更多强化学习。

这是一个数据生成引擎，以计算和与世界的交互为基础，仅此而已。人们担心数据短缺，这是我不担心的重要原因。同样，这就是为什么我认为认为更多人工智能加速器的需求很快就会减少的想法是天真的。

推理

通用强化学习的第一个应用是构建“推理”模型。我们将这些东西拟人化，说它们在“思考”，但我认为这个类比并不像许多怀疑论者让你相信的那么遥远。

当人类“思考”时，我们会将精神能量用于更好地理解世界，以便我们在未来采取更好的行动。这是通过内部搜索我们的直觉空间来帮助解决问题来实现的。搜索可以通过多种不同的方式进行——我们可以用语言思考、自言自语，或者使用“心眼”来可视化所需的最终状态以及达到这些状态的轨迹。有效的思考者具有创造力、自我批评性和见多识广。

推理模型试图通过生成长的标记序列来改善问题的答案来解决问题。这些长序列的标记遵循通过学习人类语言而赋予模型的模式。我们越来越多地看到模型学会使用知识检索来帮助他们的搜索。该模型还学习如何自我批评以及如何探索广阔的可能轨迹空间。

有趣的是，有效的通用推理策略似乎“脱离”了通用强化学习优化。例如，被教导要“努力思考”以更好地解决数学和编程问题的法学硕士在法律、生物学和经济学测试中表现得更好。

这在机器学习中开辟了一条全新的“缩放曲线”。之前，我们扩展了数据和计算以获得具有对数线性回报的更好模型。我们正处于该曲线的斜率递减的一侧。现在我们有了一种新的优化方法，可以在旧方法的基础上应用。从我迄今为止所看到的一切来看，两者似乎是相互结合的。这能推进到什么程度，还是一个悬而未决的问题。

这是要去哪里？

随着支撑这一范式的技术在未来十年内成熟并激增，人们会越来越清楚地认识到，构建解决任何感兴趣任务的计算机系统只存在两个障碍：

使模型能够以解决任务所需的保真度与世界交互
寻找可靠的方法来衡量该任务是否已令人满意地完成

毫无疑问：这些都是极其困难的问题。仅仅因为我们知道我们需要做什么并不意味着它会在今年得到解决。话虽如此，我认为它们绝对处于“可解决”的范围内，可以在短时间内完成各种有用的任务。

原文： https://nonint.com/2025/03/16/the-paradigm/?utm_source=rss&utm_medium=rss&utm_campaign=the-paradigm