周五发布的一篇新论文在人工智能界掀起了波澜,不是因为它描述的模型,而是因为它表明我们离人工智能领域的一些非常大的突破有多近。该模型略低于最先进的水平,但它可以在我的笔记本电脑上运行。更重要的是,它揭示了所有这些东西是如何工作的,而且并不复杂。
推理扩展:“等等”我!
OpenAI 是第一个提出推理时间缩放定律的人。基本上,法学硕士如果在回答之前能够“思考”更长时间,就能获得更高的表现。但是,就像,你怎么做呢?怎样才能让它思考得更久呢?
OpenAI 和 R1 有很酷的图表,显示性能随平均思考时间的变化(来自 s1 论文):
但他们如何控制 LLM 回复的长度呢?大家都跳过了这一部分,但是 s1 向我们展示了细节,而且很有趣。
上下文:当 LLM 在推理时“思考”时,它将其想法放入<think>
和</think>
XML 标签内。一旦超过结束标签,模型就会被教导将声音改变为自信和权威的语气以获得最终答案。
在 s1 中,当 LLM 试图用"</think>"
停止思考时,他们通过用"Wait"
替换它来强制它继续思考。然后它会开始重新猜测并仔细检查它的答案。他们这样做是为了修剪或延长思考时间(修剪只是突然插入"</think>"
)。
实在是太蠢了,我喜欢。这感觉就像我会尝试的那种黑客攻击。
因此,对于o3-mini-low
与o3-mini-high
,他们很可能就是这样做的。他们可能训练了 3 个模型,每个模型都有不同的平均思考时间(在训练期间测量)。最终,训练过程开始将该行为编码到模型权重中。
Entropix 合作
这个技巧太愚蠢了,你也可以在推理时做到这一点。我很后悔自己没有早点理解这一点,因为这就是 entropix 的全部内容,而且我写了很多关于 entropix 的文章。
在entropix中,他们查看 logits(和注意力)的熵和变熵来改变标记的选择方式。事实上,他们使用“等待”之类的标记来迫使法学硕士重新猜测自己。尽管还有更多内容,他们还调整了采样器设置,使其更具创造性,或者进入积极的探索模式,所有这些都取决于模型的内部状态。
我的预感是我们会看到更多entropix,或者直接受其启发的东西。尽管如此,目前还不清楚它是否会主要出现在训练或推理时间。
极度节俭数据
为什么只花了 6 美元?因为他们使用的模型很小,几乎没有任何数据。
在将 56K 示例数据集筛选到最佳 1K 后,他们发现核心 1K 就足以在 32B 模型上实现 o1 预览性能。添加数据根本没有提高性能。
32B是一个小型号,我可以在我的笔记本电脑上运行它。他们每次训练使用 16 个 NVIDIA H100 进行 26 分钟,相当于大约 6 美元。
低成本意味着你可以进行多次跑步,他们也做到了。正如我们将看到的,他们大量使用了一种称为消融的技术,通过配置上的微小变化重新运行整个训练过程,以证明哪些有效,哪些无效。
例如,他们怎么知道应该是“等等”而不是“嗯”?他们测量了!
他们还测量了训练数据集的属性,哪些示例提供了最多的信号:
他们做了很多这样的消融实验。这就是你取得进步的方式。
我们喜欢认为 OpenAI 或 DeepSeek 只是挤满了才华横溢的人,他们做出了疯狂的猜测,花费 10,000,000.00 美元进行训练,然后砰!一项创新被创造出来。但事实并非如此,即使是最聪明的人也会做数百个微小的实验。
像 s1 这样的创新可以显着降低成本,这意味着研究人员可以更快地学习和理解这些模型。这直接意味着人工智能发展的步伐加快。
地缘政治
再次强调,人工智能与政治密不可分,抱歉。
关于 OpenAI 和 Anthropic 的巨额资金存在争议。人们很容易看到 s1 或 DeepSeek V3 等降低成本的创新,并认为 OpenAI 和 Anthropic 庞大的数据中心是浪费金钱。我认为不,拥有 10,000 个 H100 仅意味着您可以进行比 s1多 625 倍的实验。
如果你认为人工智能发展是国家安全的首要优势,那么你绝对应该希望投入更多资金到人工智能发展上,让它走得更快。
结论
S1 很重要,因为它说明了当前人工智能发展的公开步伐。当你考虑到 OpenAI 和 Anthropic 等公司可以使用多少计算资源时,你会发现人工智能发展的潜在真正速度是令人心碎的。
S1 不是 R1 或 o1 的复制。这些是纯强化学习(RL)的演示。 S1 表明监督微调 (SFT) 也显示出同样大的潜力。这意味着研究人员有多种途径可以研究以推动推理时间的扩展。
我认为可以肯定地说,我们将在 25 年看到一些非常重大的事情。现在还不到二月……