有一个数学概念叫做“接吻数”。有点令人失望的是,这与真正的接吻无关。它枚举有多少个球体可以接触(或“亲吻”)相同大小的单个球体而不交叉它。在一维中,接吻数是二。在二维中它是 6(想想《纽约时报》的拼字比赛配置)。随着维数的增加,答案变得不那么明显:对于大多数超过 4 的维数,只有接吻数的上限和下限是已知的。现在,谷歌 DeepMind 开发的一款名为 AlphaEvolve 的 AI 智能体为解决这个问题做出了贡献,将 11 维接吻数的下限从 592 增加到 593。
这看起来像是对问题的渐进式改进,特别是考虑到 11 维中接吻数的上限为 868,因此未知范围仍然相当大。但它代表了人工智能代理的一项新颖的数学发现,并挑战了大型语言模型无法做出原创科学贡献的观点。
这只是 AlphaEvolve 所取得成就的一个例子。 “我们将 AlphaEvolve 应用于研究数学中的一系列开放性问题,并特意从数学的不同部分挑选问题:分析、组合学、几何,”参与该项目的 DeepMind 研究科学家Matej Balog说道。他们发现,对于 75% 的问题,人工智能模型复制了已知的最佳解决方案。在 20% 的情况下,它找到了超越任何已知解决方案的新最佳方案。 “每一个这样的案例都是一个新发现,”巴洛格说。 (在另外 5% 的情况下,人工智能收敛的解决方案比已知的最佳解决方案更差。)
该模型还开发了一种新的矩阵乘法算法——这是大部分机器学习的基础运算。 DeepMind 人工智能模型的早期版本(称为 AlphaTensor)已经击败了1969 年发现的之前最知名的 4 x 4 矩阵乘法算法。 AlphaEvolve 找到了该改进算法的更通用版本。
DeepMind 的 AlphaEvolve 对 Google 的几个实际问题进行了改进。谷歌深度思维
除了抽象数学之外,该团队还将他们的模型应用于谷歌公司每天面临的实际问题。 AI 还用于优化数据中心编排以获得 1% 的改进,优化下一代 Google 张量处理单元的设计,并发现对 Gemini 训练中使用的内核的改进,从而使训练时间减少 1%。
DeepMind 的高级研究科学家Alexander Novikov表示:“令人非常惊讶的是,你可以用一个系统做这么多不同的事情。”他也曾参与 AlphaEvolve 的工作。
AlphaEvolve 的工作原理
AlphaEvolve 之所以能够如此通用,是因为它几乎可以应用于任何可以用代码表示的问题,并且可以通过另一段代码来检查。用户提供对问题的初步尝试——解决当前问题的程序,尽管不是最理想的——以及检查一段代码满足所需标准的程度的验证程序。
然后,一个大型语言模型(在本例中为 Gemini)会提出其他候选程序来解决同一问题,并且每个程序都会由验证者进行测试。从那时起,AlphaEvolve 使用遗传算法,使所提出的解决方案中的“最适者”得以生存并进化到下一代。重复这个过程,直到解决方案停止改进。
AlphaEvolve 将 Gemini 大语言模型 (LLM) 与评估代码结合使用,所有这些都由遗传算法精心编排以优化一段代码。谷歌深度思维
“大型语言模型出现了,我们开始问自己,它们是否只会添加训练数据中的内容,或者我们实际上可以使用它们来发现一些全新的东西、新算法或新知识?”巴洛格说。 Balog 声称,这项研究表明“如果你以正确的方式使用大型语言模型,那么你可以在非常精确的意义上以算法的形式获得可证明是新的、可证明是正确的东西。”
AlphaEvolve 源自 DeepMind 模型的悠久传承,可以追溯到 AlphaZero,它在不使用任何人类知识的情况下,仅通过玩游戏并使用强化学习来掌握它,就比任何人类玩家更好地学习下棋、围棋和其他游戏,从而震惊了世界。另一种基于强化学习的数学解决人工智能 AlphaProof 在 2024 年国际数学奥林匹克竞赛中获得银牌。
然而,对于 AlphaEvolve,该团队打破了强化学习传统,转而采用遗传算法。 “系统要简单得多,”巴洛格说。 “这实际上会带来后果,那就是更容易解决各种各样的问题。”
(完全不可怕)的未来
AlphaEvolve 背后的团队希望以两种方式发展他们的系统。
首先,他们希望将其应用于更广泛的问题,包括自然科学领域的问题。为了实现这一目标,他们计划为感兴趣的学者开放一个早期访问计划,以便在他们的研究中使用 AlphaEvolve。让系统适应自然科学可能会更困难,因为对所提出的解决方案的验证可能不太简单。但是,Balog 说,“我们知道,在自然科学中,有很多针对不同类型问题的模拟器,这些模拟器也可以在 AlphaEvolve 中使用。未来,我们非常有兴趣扩大这个方向的范围。”
其次,他们希望改进系统本身,或许可以将其与另一个 DeepMind 项目: AI 联合科学家结合起来。该人工智能还使用法学硕士和遗传算法,但它侧重于自然语言的假设生成。 “他们提出了这些更高层次的想法和假设,”巴洛格说。 “我相信,将此组件合并到类似 AlphaEvolve 的系统中,将使我们能够进入更高的抽象层次。”
这些前景令人兴奋,但对某些人来说也可能听起来很危险——例如,AlphaEvolve 对 Gemini 训练的优化可能被视为递归自我改进人工智能的开始,一些人担心这会导致失控的智能爆炸,即所谓的奇点。当然,DeepMind 团队坚称这不是他们的目标。诺维科夫表示:“我们很高兴能够为推进造福人类的人工智能做出贡献。”