科学是人类迄今为止发现的最可靠的知识生产方法。但从历史的大部分时间里来看,科学的运行成本也相当高昂。
几周前,他发布了 600 行 Python 代码,开始改变这种现状。他的自动研究(参见EV#565 )运行一个自主实验循环,其中人类设定战略方向,定义“好”的标准,然后智能体在既定规则范围内迭代优化,最终取得成功。在 Andrej 的初始实验中,该模型仅用两天时间就训练出了一个 GPT-2 级别的模型,速度提升了 11%,并发现了 20 项真正的改进。
发布后不久,Shopify 的 CEO Toby Lütke 就利用自动研究功能对其公司内部模型 qmd 进行了测试;该模型一夜之间运行了 37 次实验,Toby 醒来后发现,一个拥有 8 亿参数的模型比他之前拥有 16 亿参数的版本得分高出 19%。Toby 并非机器学习工程师。
自动研究之所以强大,是因为它同时解决了两个问题。首先,它实现了部分知识生产过程的自动化。其次,它解决了智能体控制问题,也就是说,它能确保智能体始终专注于任务。如果给人工智能一个开放式的任务任务,或者优化的目标与预期不符,人工智能往往会偏离方向。令我欣喜的是,自动研究从设计之初就避免了这种情况。人决定汽车的行驶方向,而自动研究则始终掌控着方向盘。
过去一个月,我致力于将自动研究方法应用于机器学习以外的知识型工作,目标是搭建一个系统,能够针对大多数团队每周都会遇到的决策类型,开展结构化、低成本的实验。我将这个版本命名为AutoBeta ,完整的操作手册/技能将提供给下方的付费会员。
我们走吧!
测量问题
我第一次看到自动研究程序时,立刻就觉得它不一定非得是关于机器学习的。它的循环很通用——假设、测试、评分、迭代。所以我把它克隆下来,开始应用到我其他的工作中。
事情并没有完全按照我的预期发展。输出结果看起来不错,但我无法判断它们是否有所改进。与机器学习不同,机器学习的智能体可以从每次训练中获得内置的反馈信号,而知识工作却缺少这种反馈。定价决策不可能在五分钟内得到验证;而且,我写的段落大多数时候也无法告诉我论证是在变得更好,还是仅仅发生了变化。
这正是将自动研究应用于知识工作真正困难的地方。循环需要某种优化目标,而在知识工作中,这种目标并不存在。
因此,我构建了一个名为 AutoBeta 的自动研究版本,它可以应用于各种各样的业务问题。虽然它的技术上不如 Karpathy 的版本强大,但设计原则相同:我设定目标和约束条件,实验在循环内进行。
我唯一改动的地方是评分方式。我创建了一个“神谕”,一个由合成评委组成的评审团,他们会根据预先定义的标准对每个输出进行评分,并将所有评分汇总成一个单一的数字,供循环进行优化。
原文: https://www.exponentialview.co/p/autoresearch-and-the-experimental-society
