🔮 自传式研究与实验社会 – 搞英语 → 看世界

科学是人类迄今为止发现的最可靠的知识生产方法。但从历史的大部分时间里来看，科学的运行成本也相当高昂。

几周前，他发布了 600 行 Python 代码，开始改变这种现状。他的自动研究（参见EV#565 ）运行一个自主实验循环，其中人类设定战略方向，定义“好”的标准，然后智能体在既定规则范围内迭代优化，最终取得成功。在 Andrej 的初始实验中，该模型仅用两天时间就训练出了一个 GPT-2 级别的模型，速度提升了 11%，并发现了 20 项真正的改进。

发布后不久，Shopify 的 CEO Toby Lütke 就利用自动研究功能对其公司内部模型 qmd 进行了测试；该模型一夜之间运行了 37 次实验，Toby 醒来后发现，一个拥有 8 亿参数的模型比他之前拥有 16 亿参数的版本得分高出 19%。Toby 并非机器学习工程师。

自动研究之所以强大，是因为它同时解决了两个问题。首先，它实现了部分知识生产过程的自动化。其次，它解决了智能体控制问题，也就是说，它能确保智能体始终专注于任务。如果给人工智能一个开放式的任务任务，或者优化的目标与预期不符，人工智能往往会偏离方向。令我欣喜的是，自动研究从设计之初就避免了这种情况。人决定汽车的行驶方向，而自动研究则始终掌控着方向盘。

过去一个月，我致力于将自动研究方法应用于机器学习以外的知识型工作，目标是搭建一个系统，能够针对大多数团队每周都会遇到的决策类型，开展结构化、低成本的实验。我将这个版本命名为AutoBeta ，完整的操作手册/技能将提供给下方的付费会员。

我们走吧！

立即订阅

测量问题

我第一次看到自动研究程序时，立刻就觉得它不一定非得是关于机器学习的。它的循环很通用——假设、测试、评分、迭代。所以我把它克隆下来，开始应用到我其他的工作中。

事情并没有完全按照我的预期发展。输出结果看起来不错，但我无法判断它们是否有所改进。与机器学习不同，机器学习的智能体可以从每次训练中获得内置的反馈信号，而知识工作却缺少这种反馈。定价决策不可能在五分钟内得到验证；而且，我写的段落大多数时候也无法告诉我论证是在变得更好，还是仅仅发生了变化。

这正是将自动研究应用于知识工作真正困难的地方。循环需要某种优化目标，而在知识工作中，这种目标并不存在。

因此，我构建了一个名为 AutoBeta 的自动研究版本，它可以应用于各种各样的业务问题。虽然它的技术上不如 Karpathy 的版本强大，但设计原则相同：我设定目标和约束条件，实验在循环内进行。

我唯一改动的地方是评分方式。我创建了一个“神谕”，一个由合成评委组成的评审团，他们会根据预先定义的标准对每个输出进行评分，并将所有评分汇总成一个单一的数字，供循环进行优化。