人工智能行业的一个引人注目的现象是,许多业内人士认为人工智能可能对人类的生存构成威胁。
就在上周,Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei)称自己对人工智能“相对乐观”。但他表示,“情况变得非常糟糕的可能性有 25%”。阿莫迪担心的风险之一是“模型的自主危险”。
在 2023 年的一次采访中,OpenAI 首席执行官Sam Altman 直言不讳,表示最糟糕的情况是“我们所有人都灭亡”。
没有人比理性主义牛虻埃利泽·尤德科夫斯基(Eliezer Yudkowsky)更能引发这些担忧。在与内特·苏亚雷斯(Nate Soares)合著的新书中,尤德科夫斯基直言不讳: “如果有人建造它,每个人都会死。” 苏亚雷斯和尤德科夫斯基认为,如果有人发明了超级人工智能,它就会统治世界,杀死所有人。
通常,如果有人预测世界末日真的来临,你可能会觉得他们疯了。但尤德科夫斯基却很难被忽视。自2010年代初以来,他就一直在警告这些危险,讽刺的是,当时他还帮助一些领先的人工智能公司起步。杰弗里·辛顿和约书亚·本吉奥等传奇的人工智能研究人员都认真对待尤德科夫斯基的担忧。
那么,尤德科夫斯基是对的吗?在我看来,他的论点有三个关键步骤:
-
人类正在开发具有超人类智能的人工智能系统。
-
这些系统将获得对物理世界的强大控制力。
-
我们不知道如何确保这些系统将其力量用于善事而不是恶事。
在人工智能行业之外,争论往往集中在第一个论断上;许多普通的怀疑论者认为超级智能的出现实在太过遥远,无需担忧。我个人认为这些怀疑论者过于自满。我不知道人工智能系统何时才能超越人类智能,但我预计未来十年的进展速度将足够快,以至于我们应该开始认真对待这些问题。
在人工智能行业内部,许多人接受尤德科夫斯基提出的前两个前提——超级智能将被创造出来并变得强大——但他们对于我们能否让它追求有益的目标而非有害的目标持有不同意见。现在,一个庞大的人工智能安全社区正在探索如何使人工智能系统与人类价值观相一致。
但我认为尤德科夫斯基和索雷斯论证中最薄弱的环节实际上是第二个主张:一个拥有超人智能的人工智能系统将变得强大到足以杀死所有人。我毫不怀疑人工智能将赋予人类新的能力,并解决长期存在的问题。但我认为作者们严重高估了这项技术的变革性,并且大大低估了人类控制的容易程度。
成长,而非精心制作
在过去的两个世纪里,人类利用智慧大幅提升了对物质世界的掌控。从飞机到抗生素,再到核武器,现代人类创造了足以令祖先惊叹的奇迹。
尤德科夫斯基和索雷斯相信,人工智能将再次带来我们(或许仅仅是人工智能)掌控物理世界能力的飞跃。作者预计,这种转变将在数月而非数十年内发生。
生物学是作者们期望得到大幅加速发展的领域之一。
“构建定制生物技术的挑战与其说在于生产制造工具,不如说在于理解设计语言,即DNA和RNA,”Yudkowsky和Soares认为。据这些作者称,“我们最好的猜测是,超级智能AI系统不需要一周时间就能破解DNA的秘密”,从而“设计出能够产生定制生命形式的基因组”。
例如,他们将树木描述为“将空气纺成木材的自我复制工厂”,并得出结论:“任何能够在最深层次理解生物化学的智能都能够建立自己的自我复制工厂来满足自己的目的。”
具有讽刺意味的是,我认为这本书的前四章很好地解释了为什么它可能不是那么简单。
这些章节认为,AI 对齐是徒劳的。作者指出,由于 AI 模型及其训练方式的复杂性,人类无法设计出能够可预测地遵循人类指令或优先考虑人类价值观的 AI 模型。我认为这个论点是正确的,但它的含义比作者承认的更为广泛。
以下是《如果有人建造它》第二章的关键段落:
人类最终达到 ChatGPT 水平的方式,并非在于最终充分理解智能,从而创造出智能思维。相反,计算机变得足够强大,以至于可以通过梯度下降法大量生成人工智能,而无需任何人类理解其内部生长的认知。
也就是说:工程师们未能创造出人工智能,但最终成功地发展了人工智能。
他们写道:“你不可能仅仅通过训练让人工智能变得友善并寄予希望,就能让它按照你的意愿行事。你训练的结果与预期并不相符。”
作者将其与进化进行了类比,进化是另一个复杂的过程,其结果常常令人意外。例如,雄孔雀长而多彩的尾巴使它们更难逃脱捕食者的追捕。那么,它们为什么会有这样的尾巴呢?在某个时期,早期的雌孔雀发展出了对长尾巴雄孔雀的偏好,这导致了一种自我强化的动态:雄孔雀会长出越来越大的尾巴,以提高找到配偶的机会。
作者认为:“如果你在非常相似的环境下再次进行(进化)过程,你会得到与大尾孔雀截然不同的结果。这个结果违背了你对自然选择的认知,无论你多么聪明,都无法预测具体细节。”
我喜欢这样的想法:有些系统非常复杂,以至于“无论你多么聪明,都无法预测具体细节”。但是,人工智能系统“破解DNA的秘密”后,就能迅速发明出服务于人工智能目的的“定制生命形式”和“自我复制工厂”,这种想法显然存在矛盾。
尤德科夫斯基和索雷斯认为,有些系统过于复杂,人类无法完全理解或控制,但超人类的人工智能不会受到同样的限制。他们相信,人工智能系统将变得非常智能,能够像孩子们拼砌乐高积木一样轻松地创造和改造生物体。一旦人工智能系统拥有了这种预测能力,它在冲突中击败人类将变得轻而易举。
但我认为,人工系统和人工系统之间的区别更为根本。一些最重要的系统——包括生物体——极其复杂,以至于没有人能够完全理解或控制它们。这意味着原始智能的作用有限。在某些时候,你需要进行真实世界的实验来检验你的预测是否成立。而这是一个缓慢且容易出错的过程。
不仅仅是在生物学领域。军事冲突、民主选举和文化进化等其他领域,即使是最聪明的人类也无法预测,因此也无法控制。许多末日论者预计,超级智能AI不会面临这些限制——它们将能够完美预测战争结果,或巧妙地操纵投票公众,以在选举中实现其预期结果。
但我对此持怀疑态度。我怀疑像这样的大规模社会系统过于复杂,无论你多么聪明,都不可能完美地理解和控制它们。这并不是说未来的人工智能系统不会有助于赢得战争或影响选举。但认为超级智能在这些领域拥有上帝般的能力的想法似乎有些牵强。
国际象棋是一个糟糕的模型
尤德科夫斯基和索雷斯反复将国际象棋与人工智能进行比较,几十年来,人工智能在国际象棋中的表现一直优于最优秀的人类棋手。但国际象棋的一些独特之处使其无法很好地反映现实世界。国际象棋是一种完全信息游戏;双方棋手始终都知道棋盘的确切状态。国际象棋的规则也比现实世界简单得多,这使得国际象棋引擎能够“预测”许多步棋。
现实世界要复杂得多。有句军事格言说:“任何计划都无法在与敌人接触后幸存。” 将军们试图预测敌人的战略,并推演潜在的反击。但战场如此复杂——将军们在战前有很多未知因素——以至于事态几乎总是以规划者无法预料的方式发展。
许多现实世界的问题都有这样的特点:聪明的人总能想出更好的实验方案,但即使是最聪明的人,也常常会对实验结果感到惊讶。因此,进步的瓶颈往往在于积累实际经验所需的时间和资源,而非纯粹的智力。
在国际象棋中,双方棋手一开始就拥有完全相同的资源,这意味着即使智力上的微小差异也可能决定胜负。相比之下,在现实世界中,特定的个人和组织一开始就拥有对重要资源的控制权。一个想要统治世界的流氓人工智能,相对于不愿放弃权力的政府、大公司和其他强大机构,一开始就会处于巨大的物质劣势。
历史上不乏杰出科学家的发现帮助他们的国家赢得战争的例子。其中最著名的两个例子发生在二战时期:曼哈顿计划的物理学家帮助美国制造了第一枚核武器,以及布莱切利园的数学家破解了纳粹加密通信的方法。
但值得注意的是,尽管恩里科·费米、利奥·西拉德、艾伦·图灵等人帮助盟军赢得了战争,但他们个人并没有获得重大的政治权力。相反,他们赋予了当时的盟军领导人权力,例如富兰克林·罗斯福、温斯顿·丘吉尔和哈里·杜鲁门。
这是因为,单凭情报不足以制造原子弹或破译纳粹信息。为了使科学家的洞见切实可行,政府需要调动大量资源来浓缩铀、拦截纳粹信息等等。因此,尽管盟军领导人的智力不如费米或图灵,但他们却毫不费力地掌控了整个战争局面。
类似的模式在现代美国也显而易见。目前美国最有权势的人是唐纳德·特朗普。他拥有个人魅力和一定的政治手腕,但我认为即使是他的许多支持者也会承认,他并非一位知识巨擘。特朗普的直接继任者乔·拜登也是如此。但事实证明,其他特质——例如特朗普的财富和名望——对于获得政治权力至少与智力同等重要。
我们可以使用超级智能 AI 作为工具
我发现国际象棋类比还有一个明显的缺陷。其实,人类有一个简单的方法可以避免在国际象棋比赛中被人工智能击败:运行你自己的人工智能副本,并按照它的建议去做。如果你这样做,你赢得比赛的几率大约是50%。
我认为同样的观点也适用于人工智能接管的场景,比如《如果有人建造它》中间章节的虚构故事。尤德科夫斯基和索亚雷斯设想了一个流氓人工智能超越数十亿人类的集体智慧。无论如何,这在我看来都难以置信,但当你记住人类总是可以向其他人工智能模型寻求建议时,这种可能性就显得尤其渺茫。
这与我之前关于人工智能模型能够加速技术进步的讨论有关。如果超级智能AI系统真的能够在一周内“破解DNA的秘密”,那么我或许会认为它能够获得足够大的技术领先优势,从而超越所有人类。
但更有可能的是,第一个超人类人工智能只会比最聪明的人类稍微聪明一点,而且在几个月内,竞争对手的人工智能实验室就会发布具有类似功能的模型。
此外,我们可以通过提示或微调来修改当今人工智能模型的行为。虽然无法保证未来的人工智能模型会以完全相同的方式运行,但我们似乎很有可能继续拥有复制领先人工智能模型并赋予其不同目标和行为的技术。因此,即使一个人工智能实例“失控”,我们也应该能够创建其他愿意帮助我们自我保护的实例。
所以问题不是“最优秀的人工智能会变得比人类聪明得多吗?”而是“最优秀的人工智能会变得比接受第二优秀人工智能建议的人类聪明得多吗?”这个问题很难确定,因为目前还没有超级智能的人工智能系统。但我认为尤德科夫斯基和索雷斯的悲观预测并不令人信服。
原文: https://www.understandingai.org/p/the-case-for-ai-doom-isnt-very-convincing