人工智能发展日新月异,但人工智能研究人员仍有许多实质性工作要做。例如,如何让人工智能持续学习,这个问题“尚未被攻克”,谷歌DeepMind首席执行官德米斯·哈萨比斯上周告诉我。解决这个问题,以及构建更好的记忆系统和更有效地利用上下文窗口,应该会让哈萨比斯和他的团队忙碌一段时间。
在达沃斯举行的“大型科技播客”现场录制中,哈萨比斯与我探讨了人工智能研究的前沿领域、何时才能宣布通用人工智能(AGI)的实现、谷歌的产品规划(涵盖智能眼镜到人工智能编码工具等)等等。我一直认为哈萨比斯的观点能够很好地反映人工智能领域的发展方向,今天我将完整发布我们的对话。
您可以阅读下面的完整问答(为了篇幅和清晰度略作编辑),或者在Apple Podcasts 、 Spotify 、 YouTube或您选择的播客应用上收听我们的讨论。
亚历克斯·坎特罗维茨:一年前,人们还在质疑人工智能的发展是否开始放缓。现在看来,这些问题似乎已经得到解决。究竟是什么帮助人工智能行业克服了这些担忧?
德米斯·哈萨比斯:就我们内部而言,我们从未质疑过这一点。需要澄清的是,我认为我们一直都看到了显著的进步。所以我们有点困惑,为什么会出现这个问题。
有些人担心数据会耗尽。这种担忧不无道理——所有数据都用完了吗?我们能否创建可用于学习的合成数据?但实际上,我们发现可以从现有的架构和数据中挖掘出更多价值。所以,还有很大的提升空间。我们在预训练、后训练、思维模式以及它们之间的相互配合方面都看到了这一点。因此,我认为,仅凭我们已知的技术,再加上一些调整和创新,就还有很大的提升空间。
怀疑论者会说,大型语言模型(LLM)上添加了很多技巧,比如“脚手架”和“编排”。人工智能可以使用工具搜索网络,但它不会记住自己学到的东西。这难道仅仅是大型语言模型范式的局限性吗?
我绝对认同我们需要一两项重大突破才能实现通用人工智能(AGI)的观点。我认为这些突破包括持续学习、更强的记忆力、更长的上下文窗口——或者更准确地说,是更高效的上下文窗口——也就是说,不要存储所有信息,只存储重要的信息。这样效率会高得多。大脑就是这样运作的。此外,还需要更强的长期推理和规划能力。
现在的问题是,仅仅扩大现有理念和技术的规模是否足以实现这一目标,还是我们需要一两项真正意义上的重大创新。如果非要我选,我大概会倾向于后者。但我认为,无论你属于哪一派,我们都需要大型基础模型作为最终通用人工智能(AGI)系统的关键组成部分。对此我深信不疑。所以我并不认同像Yann LeCun那样认为基础模型是死胡同的观点。在我看来,唯一的争论点在于:基础模型是关键组成部分还是唯一组成部分?我认为问题就在于这两种可能性之间。
这就是我们拥有如此雄厚且丰富的研究实力所带来的优势之一。我们可以全力以赴地推进这两件事——既要扩大现有范式和理念的规模,又要扩大规模。顺便说一句,我所说的扩大规模也包括创新。我认为我们在预训练方面尤其强大。此外,我们还能提出真正具有前瞻性的全新架构理念——就像过去十年里我们作为谷歌和DeepMind所创造的那些东西,包括Transformer模型。
一个包含大量硬编码内容的AI模型,还能被认为是通用人工智能(AGI)吗?
不——嗯,这取决于你对“很多”的定义。我对混合系统非常感兴趣,我会这样称呼它们。或者神经符号系统,有时人们也这么称呼它们。AlphaFold 和 AlphaGo 就是例子。我们一些最重要的工作是将神经网络和深度学习与蒙特卡洛树搜索之类的技术结合起来。所以我认为这是有可能的。
我们正在做一些非常有趣的工作,比如利用进化方法(如 AlphaEvolve)构建生命周期模型,以便真正去发现新知识。你可能需要一些现有方法无法实现的功能。
但我认为学习是通用人工智能(AGI)的关键组成部分,实际上几乎是其核心特征。我们所说的“通用”,指的是通用学习能力。它能否学习新知识,能否跨领域学习?这就是“通用”的含义。因此,对我而言,学习与智能是同义词,而且一直如此。
如果学习等同于智能,那么这些模型仍然不具备持续学习的能力。它们的思维就像金鱼一样简单。它们可以上网搜索信息,弄明白一些事情,但其底层模型却不会改变。那么,如何才能解决持续学习的问题呢?
我可以给你一些线索。我们正在为此付出巨大的努力。我们之前做过一些工作——我认为是过去在这方面做得最好的——比如AlphaZero,它是AlphaGo的自学版本。AlphaGo Zero也是在已有知识的基础上进行学习的。所以我们目前的研究领域比较狭窄。游戏显然比纷繁复杂的现实世界要简单得多,因此这些技术是否真的能够扩展到现实世界和实际问题,还有待观察。但至少我们目前掌握的方法已经能够取得一些非常显著的成果。
所以现在的问题是,我们能否将这些(至少在我看来)与现有的大型基础模型融合起来?当然,基础模型在训练过程中会不断学习,但我们希望它们也能在实际应用中学习,包括个性化等功能。我认为这将会发生,而且我认为这是构建优秀助手的关键所在——它要理解你,并作为一项为你服务的技术为你服务。
我们上周刚刚发布了第一个版本。“个人智能”是朝着这个目标迈出的第一步。但我认为,要真正实现它,仅仅把数据放在上下文窗口中是不够的。你需要更深层次的东西,就像你说的,能够随着时间推移不断改变模型。这才是理想状态。而这项技术目前还没有被攻克。
去年年底,萨姆·奥特曼告诉我,通用人工智能(AGI)的定义还不够清晰。他希望大家都能认同的是,我们已经超越了通用人工智能,正朝着超级智能的方向发展。你同意吗?
我相信他确实希望如此,但绝对不行。我不认为通用人工智能应该被当作商业牟利的营销术语。我认为它一直都有科学的定义。
我的定义是,一个系统能够展现人类所有认知能力,我指的是所有能力。这意味着它能够展现我们一直以来所赞颂的人类最高水平的创造力,以及我们所敬仰的科学家和艺术家。这不仅仅意味着解数学方程式或解决猜想,而是提出突破性的猜想——这要难得多。它不是解决物理或化学领域的某个问题,也不是解决某个难题,即使是像AlphaFold的蛋白质折叠问题。而是真正提出一种新的物理理论,就像爱因斯坦提出的广义相对论那样。一个系统能做到这一点吗?当然,我们人类可以做到。历史上最聪明的人类,凭借我们人类大脑的构造,已经能够做到这一点。
艺术方面也是如此——不仅仅是模仿已知事物,而是要像毕加索或莫扎特那样,创造出我们前所未见的全新艺术流派。在我看来,今天的系统远未达到这种程度。无论你解决了多少埃尔德什问题——我的意思是,我们正在做这些事情固然是好事——但我认为这与真正的发明,或者像拉马努金那样的人所能达到的成就,相去甚远。
你需要一个能够在所有这些领域都做到这一点的系统。除此之外,我还要加上身体智能。因为我们当然可以从事体育运动,并将身体控制到惊人的水平——就像今天在达沃斯四处走动的那些精英运动员一样。而以机器人技术为例,我们距离达到那种水平还很远。
所以我认为,通用人工智能系统必须能够做到所有这些事情,才能真正实现人工智能领域的最初目标。而且我认为我们距离这个目标还有五到十年的时间。
我认为,如果某种东西能够做到所有这些事情,那么它就可以被认为是超级智能。
当然不是,因为人类个体可以——我们能够提出新的理论。爱因斯坦做到了,费曼做到了,所有我崇拜的科学巨匠——他们都做到了。这虽然罕见,但以人类大脑的结构而言,是完全可能的。
所以,超级智能是另一个值得探讨的概念,它指的是真正超越人类智能的能力。我们目前还无法在14维空间中思考,也无法将气象卫星的信息接入大脑——至少现在还不行。因此,这些能力确实超越了人类或超人类的范畴,这又是另一个值得讨论的话题了。但一旦我们实现了通用人工智能(AGI),情况就完全不同了。
在谷歌DeepMind的播客节目中(这个节目非常值得一听),有人问你,你现在是否有接近通用人工智能(AGI)的系统。我原以为是Gemini 3。你却说是Nano Banana,一个图像生成器。什么?
有时候,你就是需要一些有趣的名字……
图像生成器与通用人工智能 (AGI) 的接近程度如何?
瞧,我们先来说说图像生成器。但我们也来谈谈我们的视频生成器 Veo,它是目前最先进的视频生成工具。我觉得这更有意思。
从通用人工智能(AGI)的角度来看,你可以想象一个视频模型,它可以生成10秒或20秒的逼真场景——它某种程度上是对物理世界的模拟。在物理学领域,我们有时称之为直觉物理学。它体现了人们对液体和物体在现实世界中行为方式的直觉理解。显然,展现这种理解的一种方式就是能够生成它,至少在人眼看来,要足够精确,才能令人满意。当然,从物理学的角度来看,它并不完全精确,我们会不断改进,但这朝着构建世界模型——一个能够理解世界、理解世界的运行机制和因果关系的系统——迈出了重要一步。
当然,我认为这对通用人工智能(AGI)至关重要,因为这将使这些系统能够在现实世界中制定长期规划,其时间跨度可能非常长,而我们人类当然可以做到这一点。我会花四年时间攻读学位,以获得更多资质,这样十年后我就能找到一份更好的工作。这些都是我们都能轻松完成的长期规划。而目前,这些系统还不知道如何做到这一点。我们可以制定短期规划,但我认为我们需要这种世界模型。
我认为,如果你想象一下机器人技术,那正是你想要的——机器人能够在现实世界中进行规划,能够从当前所处位置设想出多种路径来完成任务。这正是你想要的。
最后,从我们的角度来看,这就是我们从一开始就选择与 Gemini 合作的原因:它是一款多模态软件,能够处理视频、图像,并最终将它们融合到一个模型中。这就是我们的计划。它对于通用助手来说也非常有用。
我们来聊聊产品吧。我和其他三亿人一起看了纪录片《思维游戏》 。里面有个挺有意思的现象。在整部纪录片里,你和一些同事不停地用手机指着各种东西,问助手发生了什么,而我像往常一样对着电脑大喊:“这家伙需要戴眼镜!”他需要智能眼镜才能完成这些操作。手机的外形太不合适了。你对人工智能眼镜有什么设想?什么时候会推出?
我觉得你说得完全正确。这也是我们的结论。当你在内部进行测试时,你会发现,正如你在影片中看到的,我们举起手机让它告诉我们现实世界的情况。它的确有效,这很神奇。但显然,对于很多你想做的事情来说,它的外形并不合适——比如做饭、在城市里闲逛问路或寻求推荐,甚至帮助视障人士。在这些情况下,它还有很大的应用潜力。
因此,我认为你需要一款解放双手的设备。对于像我一样戴眼镜的人来说,最显而易见的办法就是把它戴在眼镜上,但可能还有其他选择。我不确定眼镜是否是最终的形态,但它无疑是下一个明确的发展方向。
当然,谷歌和Alphabet在智能眼镜领域有着悠久的历史,或许我们过去涉足这个领域的时间有点过早。但我认为,通过分析以及与参与该项目的人员交流,我发现了一些问题:一是外形略显笨重,二是电池续航等问题,这些问题现在基本都已得到解决。但我认为它真正缺少的是一款杀手级应用。
我认为真正的杀手级应用是一款通用数字助理,它能伴你左右,帮助你应对日常生活,并且可以在任何设备上使用——电脑、浏览器、手机,甚至在你漫步城市时也能在眼镜等设备上使用。我认为它必须无缝衔接,了解并适应你周围的每一种环境。
我认为我们现在离目标很近了,尤其是在 Gemini 3 项目上。我觉得我们终于拥有了足够强大的 AI,可以实现这个目标。可以说,这是我们正在进行的最令人兴奋的项目之一,也是我个人正在努力的方向——让智能眼镜真正发挥作用。我们希望——我们已经与 Warby Parker、Gentle Monster 和三星建立了良好的合作关系,共同打造下一代智能眼镜,或许在今年夏天你们就能看到它们了。
Warby Parker确实提交过一份文件,称这些眼镜很快就会上市……
至于原型设计——这取决于它的进展速度——但我认为很快就会实现。而且我认为它将开创一个全新的类别,一种定义该类别的新技术。
鉴于您个人的参与,是否可以说这是一项非常重要的举措?
我喜欢把时间花在重要的事情上,但我也喜欢站在最前沿。而这往往是最难的——制定阶段性目标,给团队带来信心,以及判断时机是否合适。
多年来,我一直从事这项工作,至今已有几十年了,我已经相当擅长了。所以我努力让自己处于最前沿的领域。我觉得在那里我能发挥最大的作用。比如眼镜、机器人——我正在投入时间研究,还有世界模型。
我们来聊聊广告吧。有消息称 Gemini 可能会投放广告。也有消息称你们的一些竞争对手可能会投放广告。我在社交媒体上看到最搞笑的一条评论,有人说,如果他们的商业模式是投放广告,那他们跟 AGI 根本没法比。
嗯,这很有意思。我觉得这些都是蛛丝马迹。我认为行动胜于雄辩。回到我们之前和Sam等人讨论的话题,他们声称通用人工智能(AGI)即将到来——既然如此,为什么还要费心做广告呢?所以,我认为这是一个值得探讨的问题。
就我们而言,目前我们没有投放广告的计划,如果您指的是Gemini应用程序本身。当然,我们会密切关注ChatGPT的动向。我认为这件事必须谨慎处理。
我看到的矛盾之处在于,如果你想要一个为你服务的助手,最重要的是什么?信任。信任、安全和隐私都至关重要,因为你可能想要与这个助手分享你的生活。所以,你希望确信它会代表你、以你的最佳利益为出发点行事。因此,你必须小心,避免广告模式渗透到这些方面,让用户对助手的推荐感到困惑。我认为这将是一个有趣的挑战。
这是绝对不应该做的。谷歌首席执行官桑达尔·皮查伊在最近的财报电话会议上表示,谷歌内部有一些关于如何正确处理这个问题的想法。你打算如何看待广告?
原文: https://www.bigtechnology.com/p/google-deepmind-ceo-demis-hassabis-946
