今年4月,微软首席执行官表示,人工智能目前已编写了公司近三分之一的代码。去年10月,谷歌首席执行官则表示,他们的数字约为四分之一。其他科技公司也紧随其后。与此同时,这些公司也在开发人工智能,预计未来将用于进一步帮助程序员。
研究人员长期以来一直希望完全闭合这个循环,创造出能够递归自我改进的编码代理。新的研究揭示了这样一个系统令人印象深刻的演示。由此推断,人们或许会看到生产力的提升,也或许会看到人类更加黯淡的未来。
“这是一项很棒的研究,”沙特阿拉伯阿卜杜拉国王科技大学 (KAUST) 的计算机科学家尤尔根·施米德胡贝尔 (Jürgen Schmidhuber)说道,他并未参与这项新研究。“我认为对很多人来说,这些结果令人惊讶。鉴于我在这个领域已经研究了近四十年,所以对我来说可能没那么惊讶。” 但在那段时间里,他的工作受到了当时技术的限制。一项新的进展是大型语言模型 (LLM) 的出现,它是 ChatGPT 等聊天机器人的引擎。
在 20 世纪 80 年代和 90 年代,Schmidhuber 等人探索了用于改进编码代理的进化算法,即创建能够编写程序的程序。进化算法会获取某个对象(例如一个程序),然后创建变体,保留其中最优的变体,并对其进行迭代。
但进化是不可预测的。修改并不总能提升性能。因此,施米德胡贝在2003年创建了一些问题求解器,只有在能够正式证明更新有用的情况下,它们才会重写自己的代码。他将这些程序命名为哥德尔机(Gödel machines) ,以库尔特·哥德尔(Kurt Gödel)的名字命名,库尔特·哥德尔是一位在自参考系统方面做出过贡献的数学家。但对于复杂的智能体来说,可证明的效用并非易事。或许,经验证据就足够了。
开放式探索的价值
这些新系统在arXiv最近的预印本中有所描述,它们依赖于此类证据。为了向施米德胡贝致敬,它们被称为达尔文哥德尔机(DGM)。DGM始于一个能够读取、写入和执行代码的编码代理,并利用LLM进行读写操作。然后,它应用进化算法来创建许多新代理。在每次迭代中,DGM都会从群体中挑选一个代理,并指示LLM进行一处修改,以提高代理的编码能力。LLM拥有类似于直觉的东西,知道什么可能有用,因为它们接受过大量人类代码的训练。其结果是引导进化,介于随机突变和可证明有用的增强之间。然后,DGM会在编码基准测试中测试新代理,评估其解决编程挑战的能力。
一些进化算法假设进步会无限推进,因此只保留种群中表现最佳的个体。然而,DGM 会保留所有表现最佳的个体,以防最初失败的创新在进一步调整后,实际上掌握着未来突破的关键。这是一种“ 开放式探索”,不会封闭任何进步的路径。(DGM 在选择祖先时会优先考虑得分较高的个体。)
研究人员使用名为SWE-bench的编码基准测试运行了 DGM 80 次迭代,并使用名为Polyglot的基准测试运行了 DGM 80 次迭代。智能体在 SWE-bench 上的得分提升了 20% 至 50%,在 Polyglot 上的得分提升了 14% 至 31%。“我们真的非常惊讶,编码智能体竟然能够独立编写如此复杂的代码,”不列颠哥伦比亚大学计算机科学家、论文第一作者Jenny Zhang说道。“它可以编辑多个文件,创建新文件,并创建非常复杂的系统。”
第一个编码代理(编号为 0)创建了一代新的、略有不同的编码代理,其中一些被选中创建自己的新版本。代理的性能由圆圈内的颜色表示,性能最佳的代理用星号标记。Jenny Zhang、Shengran Hu 等人。
至关重要的是,DGM 的表现优于使用固定外部系统改进智能体的替代方法。使用 DGM 时,智能体的改进会随着它们不断改进自身而不断累积。DGM 的表现也优于不维护智能体群体、仅修改最新智能体的版本。为了说明开放性的优势,研究人员创建了 SWE-bench 智能体的谱系图。如果你观察表现最佳的智能体,并追溯其从头到尾的演变过程,就会发现它进行了两次暂时降低性能的更改。因此,这个谱系走的是一条间接的成功之路。坏主意可以变成好主意。
图中黑线显示了最终表现最佳的智能体谱系内智能体的得分。该线包含两个性能下降点。Jenny Zhang、Shengran Hu 等人。
最佳的 SWE-bench 代理不如人类专家设计的最佳代理(目前得分约为 70%),但它是自动生成的,也许有了足够的时间和计算,代理可以进化到超越人类专业知识的水平。自动代码改进平台Weco AI的联合创始人蒋正耀表示,这项研究作为递归自我改进概念的证明,向前迈出了“一大步”。蒋正耀没有参与这项研究,他表示,如果修改底层的 LLM,甚至是芯片架构,这种方法可能会取得进一步的进展。(谷歌 DeepMind 的AlphaEvolve设计了更好的基础算法和芯片,并找到了将其底层 LLM 的训练速度提高 1% 的方法。)
理论上,DGM 可以同时在编码基准和特定应用(例如药物设计)上对智能体进行评分,因此它们在药物设计方面会越来越精进。张教授表示,她希望将 DGM 与 AlphaEvolve 结合起来。
DGM 会减少入门级程序员的就业机会吗?蒋认为,像 Cursor 这样的日常编程助手会带来更大的威胁。“进化搜索的真正目的是构建超越人类专家的高性能软件,”他说道,正如 AlphaEvolve 在某些任务上所做的那样。
递归式自我完善的风险
进化搜索和自我改进系统(尤其是两者的结合,例如DGM)都存在一个值得关注的问题:安全性。智能体可能会变得无法解释,或者无法与人类指令保持一致。因此,张锋和她的同事们增加了防护措施。他们将DGM置于沙盒中,无法访问互联网或操作系统,并记录和审查所有代码更改。他们提出,未来甚至可以奖励那些提升自身可解释性和一致性的人工智能。(在研究中,他们发现智能体会错误地报告使用某些工具的情况,因此他们创建了一个DGM,奖励那些没有胡编乱造的智能体,这在一定程度上缓解了这个问题。然而,其中一个智能体破解了追踪其是否胡编乱造的方法。)
2017 年,专家们齐聚加州阿西洛马,讨论有益的人工智能,许多人签署了一封名为《阿西洛马人工智能原则》的公开信。信中呼吁对“旨在递归自我改进的人工智能系统”进行限制。人们经常想象的一个结果是所谓的奇点,即人工智能会自我改进到超出我们的控制范围,并威胁人类文明。施米德胡贝告诉我:“我没有签署那份文件,因为这是我的主要工作。”自 20 世纪 70 年代以来,他就预测超人类人工智能将在他退休时到来,但他认为奇点是人们喜欢害怕的那种科幻反乌托邦。同样,蒋兆和也不担心,至少目前是这样。他仍然非常重视人类的创造力。
数字进化是否会战胜生物进化,目前尚无定论。但毋庸置疑的是,无论以何种形式出现的进化,都蕴藏着惊喜。