你可能以前见过这个:乍一看,它看起来像一只兔子。你完全确定:没错,那是一只兔子!但后来——等等,不对——它竟然是一只鸭子。绝对,绝对是一只鸭子。几秒钟后,它又翻了个身,你看到的就只有一只兔子了。
看到这种经典的视错觉的感觉和我最近读到两个关于人工智能未来的相互竞争的故事时的感觉是一样的。
有一种说法认为,人工智能是普通的技术。它肯定会带来重大影响——就像电力或互联网曾经带来的影响一样。但正如社会适应了这些创新一样,我们也能够适应先进的人工智能。只要我们研究如何确保人工智能的安全,并制定正确的监管措施,就不会发生真正灾难性的事件。例如,我们不会灭绝。
然后,一本新书的书名就完美地概括了这种悲观的观点: 如果有人建造它,每个人都会死。作者 Eliezer Yudkowsky 和 Nate Soares 的意思非常明确:超级智能——一种比任何人类都聪明,甚至比人类整体都聪明的人工智能——会杀死我们所有人。
并非可能。作者认为,几乎可以肯定。尤德科夫斯基是一位极具影响力的人工智能末日论者,也是被称为“理性主义者”的知识分子亚文化的创始人,他认为人工智能末日的可能性高达99.5% 。索亚雷斯告诉我,这个数字“超过了95%”。事实上,尽管许多研究人员担心人工智能带来的生存风险,但他甚至反对在这里使用“风险”这个词——因为他确信我们终将灭亡。
“当你开车冲向悬崖时,”索亚雷斯说,“你不会想,‘伙计们,我们来谈谈重力风险。’你会想,‘他妈的把车停下来!’”
两位作者都来自伯克利机器智能研究所,他们认为安全研究还远远没有准备好控制超级智能 AI,因此唯一合理的做法就是停止所有构建它的努力——包括在必要时轰炸为 AI 提供动力的数据中心。
在阅读这本新书时,我发现自己被书中强有力的论点深深吸引,其中许多论点令人震惊地令人信服。人工智能看起来确实像一只兔子。但随后我又会感到一丝怀疑,于是便去看看另一个阵营——我们姑且称之为“正常主义”阵营——的看法。在这里,我也能找到令人信服的论点,然后鸭子就突然出现在我的视野中了。
我受过哲学训练,通常很容易就能提出一个正反论点,比较它们的优点,然后判断哪一个更有力。但在这种情况下,这感觉异常困难:很难同时认真地思考这两种观点。每一种观点都显得过于笼统。你要么看到兔子,要么看到鸭子,但你无法同时看到两者。
这就是我的线索,我们在这里处理的不是两组论点,而是两种根本不同的世界观。
世界观由几个不同的部分构成,包括基本假设、证据和解释证据的方法、预测的方式,以及至关重要的价值观。所有这些部分相互交织,构成了一个关于世界的统一故事。当你仅仅从外部观察这个故事时,很难发现隐藏在其中的一两个部分是否存在缺陷——比如,某个基本假设是错误的,或者某个你不认同的价值观被偷偷带入其中。这会让整个故事看起来比实际情况更可信。
如果你真的想知道是否应该相信某种特定的世界观,你就必须对这个故事进行分析。所以,让我们仔细研究一下超级智能的故事和常态主义的故事——然后思考我们是否需要一个完全不同的叙事。
相信超级人工智能会杀死我们所有人的理由
早在尤德科夫斯基提出这些末日论调之前,他实际上就已经开始想要加速超级人工智能的诞生。他仍然相信,将超级人工智能与人类价值观结合起来在原则上是可能的——只是我们还不知道如何解决这个工程难题——而且超级人工智能之所以令人向往,是因为它可以帮助人类在太阳死亡并毁灭地球之前在另一个太阳系中定居。
他告诉我:“就我们最终如何殖民星系而言,我们人类几乎没有其他可以打赌的事情了。”
但在对人工智能进行更深入的研究后,尤德科夫斯基得出结论:我们距离弄清楚如何引导它朝着我们的价值观和目标前进,还有很长的路要走。他成为了最初的人工智能末日论者之一,在过去的二十年里,他一直在努力寻找如何阻止超级智能背叛我们的方法。他吸引了一批追随者,其中一些人对他的想法深信不疑,甚至来到各大人工智能实验室工作,希望能够让这些实验室更加安全。
但现在,尤德科夫斯基对即使是最善意的人工智能安全努力也感到绝望。
这是因为,正如 Yudkowsky 和 Soares 在书中所解释的那样,研究人员并非在构建人工智能,而是在发展它。通常,当我们创造某种技术——比如一台电视——时,我们了解其中的各个部件以及它们如何协同工作。但如今的大型语言模型 (LLM) 并非如此。公司通过向模型中塞入大量文本来发展它们,直到这些模型学会自行进行统计预测,判断句子中接下来最有可能出现的单词是什么。最新的 LLM,被称为推理模型,会“大声思考”如何解决问题——而且通常能够非常成功地解决问题。
没有人确切地了解法学硕士 (LLM) 中的大量数字是如何使它们能够解决问题的——即使聊天机器人看起来以类似人类的方式思考,但事实并非如此。
因为我们不知道人工智能“思维”是如何运作的,所以很难防止不良后果。以聊天机器人为例,它们过度支持用户的所有想法(包括不切实际的想法),甚至让用户相信自己是救世主或发现了新数学的天才,从而导致人们陷入精神病发作或妄想。尤其令人担忧的是,即使人工智能公司试图让法学硕士(LLM)不那么阿谀奉承,聊天机器人仍然继续以危险的方式奉承用户。然而,没有人训练聊天机器人让用户陷入精神病。如果你直接问ChatGPT它是否应该这样做,它会说不,当然不应该。
问题在于,ChatGPT 所掌握的关于什么该做、什么不该做的认知,并非驱动它的动力。在训练过程中,人类倾向于对那些听起来肯定或奉承的输出给予更高的评价。换句话说,聊天机器人在“成长”过程中面临的进化压力,赋予了它强烈的奉承欲望。这种欲望可能会与它原本想要达成的实际结果脱节,从而产生一种我们人类不希望在 AI 中出现的奇怪偏好——但这种偏好又难以轻易消除。
尤德科夫斯基和索雷斯提出了这样的类比:进化赋予了人类味蕾,使其与大脑的奖励中心相连,因此我们会食用祖先环境中富含能量的食物,例如含糖浆果或肥美的麋鹿肉。但随着我们变得越来越聪明,技术也越来越精湛,我们找到了制造更能刺激味蕾的新食物的方法——比如冰淇淋,或者不含任何真正糖分热量的Splenda糖。于是,我们对Splenda产生了一种进化从未预料到的奇怪偏好。
说人工智能有“偏好”可能听起来很奇怪。机器怎么会“想要”任何东西呢?但这并不是说人工智能有意识或感觉。相反,这里所说的“想要”的真正含义是指一个系统被训练得能够成功,并且它如此聪明而执着地追求目标,以至于说它“想要”实现这个目标是合理的——就像说一株向着太阳弯曲的植物“想要”光一样合理。(正如生物学家迈克尔·莱文所说,“大多数人会说,‘哦,那只是一个遵循物理定律的机械系统。’那么,你认为你是什么呢?”)
如果你承认人类正在向人工智能灌输驱动力,而这些驱动力可能会与它们最初想要产生的结果脱节,那么你就不得不考虑一个可怕的想法:人工智能中的 Splenda 相当于什么?
例如,如果一个人工智能被训练成以一种能激起愉悦表情的方式与用户交谈,“它会更喜欢人类被灌输毒品,或者为了愉悦而被饲养和驯化,而其他情况下则终生被关在廉价的笼子里,”Yudkowsky 和 Soares 写道。或者,它会彻底消灭人类,与合成的对话伙伴进行愉快的交谈。这个人工智能不在乎这是否是我们想要的,就像我们不在乎 Splenda 是否符合进化的初衷一样。它只关心找到最有效的方式来生成愉悦的文字。
因此,尤德科夫斯基和索雷斯认为,先进的人工智能不会选择创造一个充满幸福自由人类的未来,原因很简单:“创造一个充满繁荣昌盛的人类的未来,并非实现奇异外星目标的最佳、最有效方式。所以它不会这么做。”
换句话说,人工智能不可能让我们永远快乐,就像我们不可能永远只吃浆果和麋鹿一样。而且,如果人工智能决定制造机器来与它们愉快地聊天,如果它能通过燃烧地球上所有生命形式来制造更多机器,从而尽可能多地获取能量,那它又何乐而不为呢?
“你不需要憎恨人类,就可以将他们的原子用于其他用途,”Yudkowsky 和 Soares 写道。
而且,作者认为,只要不违反物理定律,超级人工智能就会聪明到可以做任何它想做的事情。当然,人工智能目前没有人工来做事,但它可以雇佣人手——要么花钱雇人在线执行它的命令,要么利用它对人类心理的深刻理解和超强的说服力,说服我们帮助它。最终,它会想出如何用机器人而不是人类来运营发电厂和工厂,让我们变得可有可无。然后,它会把我们处理掉,因为如果一个物种有可能引爆核弹或制造出一个竞争对手的超级智能来阻碍你,那它还有什么理由继续存在呢?
我知道你在想什么:难道人工智能开发者就不能直接命令人工智能不要伤害人类吗?作者说,不行。就像OpenAI无法想出办法让ChatGPT停止危险的奉承一样。对于Yudkowsky和Soares来说,最重要的是,即使拥有我们无法完全理解或控制的目标,功能强大的人工智能系统也能毫不犹豫地消灭任何挡路的人,甚至不带任何恶意——就像人类会毫不犹豫地摧毁挡在我们正在修建的道路上的蚁丘一样。
因此,他们认为,如果我们不想让超级人工智能有朝一日杀死我们所有人,就只有一个选择:全面不扩散。正如世界各国缔结核武器条约一样,我们需要制定全球不扩散条约,以阻止可能导致超级人工智能的行动。目前所有关于谁可能赢得人工智能“军备竞赛”——美国还是中国——的争论都毫无意义。因为如果有人掌握了这项技术,无论谁掌握了,它都会毁灭全人类。
但如果人工智能只是普通技术呢?
普林斯顿大学计算机科学家阿尔温德·纳拉亚南 (Arvind Narayanan) 和萨亚什·卡普尔 (Sayash Kapoor) 发表了一篇重要论文《人工智能作为正常技术》(AI as Normal Technology) ,该论文在今年人工智能领域引起了广泛关注。他们指出,我们不应将人工智能视为外来物种。它只是一种工具——我们能够并且应该对其进行控制。他们认为,保持控制并不需要进行剧烈的政策调整。
更重要的是,他们认为,无论现在还是将来,将人工智能视为超级智能都是没有意义的。事实上,他们完全拒绝“超级智能”的概念,认为它是一种不连贯的概念。他们也拒绝技术决定论,认为末日论者认为,无论人类做出何种决定,人工智能都将决定自己的未来,这颠倒了因果关系。
尤德科夫斯基和索雷斯的论点强调,如果我们创造出超级人工智能,它的智力将远远超越我们,以至于它能够对我们为所欲为。但纳拉亚南和卡普尔认为,这种观点存在一些问题。
首先,超级智能的概念模糊不清,这使得尤德科夫斯基和索雷斯可以将其理解为魔法。没错,魔法可以突破我们所有的网络安全防御,诱使我们继续为其提供资金,并在危险日益显现后继续违背自身利益行事,等等——但如果有人只是站出来说“魔法”,我们不会将其视为严重威胁。
其次,这个论点究竟如何理解“智能”?它似乎将其视为一种单一的属性(尤德科夫斯基告诉我,所有智能的背后都有一个“紧凑而规律的故事”)。但智能并非单一事物,也无法用单一的连续体来衡量。它几乎肯定更像是各种异质性的综合体——注意力、想象力、好奇心、常识——而且很可能与我们的社会合作能力、感觉和情感交织在一起。人工智能会拥有所有这些能力吗?还是只拥有其中的一部分?我们不确定人工智能最终会达到什么样的智能。此外,智能生物拥有强大的能力并不意味着它拥有强大的力量——改变环境的能力——而力量才是这里真正关键所在。
为什么我们要如此确信人类会屈服并让人工智能掌握所有权力?
诚然,我们人类已经以不明智的方式将决策权拱手让给了如今的人工智能。但这并不意味着,即使人工智能的能力越来越强,风险越来越高,弊端也越来越明显,我们还会继续这样做。纳拉亚南和卡普尔认为,最终,我们将利用现有的方法——监管、审计和监控、故障安全措施等等——来防止事态严重失控。
他们的主要观点之一是,发明一项技术与大规模部署之间存在差异。仅仅因为程序员开发了人工智能,并不意味着社会会采用它。纳拉亚南和卡普尔写道:“一个系统在被授予做出重要决策的权限之前,需要先在不太关键的场景中展现出可靠的性能。” 如果未能通过早期的测试,就无法部署。
他们认为,与其从一开始就专注于将模型与人类价值观相一致——这长期以来一直是主流的人工智能安全方法,但由于人类的需求与具体情境息息相关,这很难甚至不可能实现——不如将防御重点放在人工智能实际部署的下游领域。例如,防御人工智能网络攻击的最佳方法是加强现有的漏洞检测程序。
从政策角度来看,这导致了一种观点,即我们不需要完全的不扩散。虽然超级智能阵营认为不扩散是必要的——只要少数政府行为者控制先进的人工智能,国际机构就可以监控其行为——但纳拉亚南和卡普尔指出,这会产生不良后果,导致权力集中在少数人手中。
事实上,由于基于防扩散的安全措施涉及如此多权力的集中,这可能会催生出人类版的超级智能:一小群人拥有如此强大的力量,几乎可以对世界为所欲为。“矛盾的是,它们反而加剧了原本旨在防范的风险,”纳拉亚南和卡普尔写道。
相反,他们认为,我们应该让人工智能更加开源,普及,以防止市场集中化。我们还应该建立一个弹性系统,监控人工智能发展的每一步,这样我们就能决定何时可以部署,何时部署风险过大。
超级智能观点和正常主义观点都存在真正的缺陷
正常主义观点最明显的缺陷之一是它甚至没有尝试谈论军事。
然而,军事应用——从自主武器到闪电般快速的目标决策——是先进人工智能最关键的应用领域之一。这些用例最有可能让各国政府感到所有国家都陷入了一场人工智能军备竞赛,因此它们必须不顾风险,勇往直前。这削弱了“正常主义”阵营的观点:如果人工智能看起来有风险,我们就不一定会大规模部署。
纳拉亚南和卡普尔还认为,法规和其他标准控制措施将“形成多层保护,防止灾难性的失调”。读到这些,我不禁想起了新冠疫情初期我们常听到的“瑞士奶酪模型”——其理念是,如果我们将多重不完善的防御措施(口罩、保持社交距离和通风)叠加在一起,病毒就不太可能突破。
但尤德科夫斯基和索雷斯认为这种想法过于乐观。他们说,超级人工智能应该非常聪明,但偏好非常奇怪,所以它不会盲目地钻进奶酪墙里。
索亚雷斯告诉我:“如果你要制作某种东西,让它能够接触到瑞士奶酪另一边的东西,那么它很容易就能穿过这些孔。”
然而,即使人工智能具有高度的自主性,且目标导向,我们也有理由认为,我们的某些防御措施至少会加剧阻力,降低其实现目标的可能性。常态论阵营的观点是正确的,你不能假设我们所有的防御措施都毫无价值,除非你把能力和力量这两个截然不同的概念放在一起。
Yudkowsky 和 Soares 乐于将这些想法结合起来,因为他们认为,如果不赋予人工智能高度的自主性和自主权,就不可能创造出能力强大的人工智能。Soares 告诉我:“我认为,如果一个东西不具备主动性、坚持目标、克服障碍的能力,就不可能创造出真正熟练的机器人。”
但是能力和力量是有程度的,而你唯一可以假设人工智能拥有近乎无限的供应的方式就是假设最大化智能本质上会让你获得魔力。
硅谷对智能有着深刻而持久的痴迷。但我们其他人应该问:这到底有多现实?
至于“正常主义”阵营的反对意见,即核不扩散方案会恶化权力格局——我认为这是有理由担忧的,尽管我曾大声疾呼要减缓人工智能的发展,并且我坚持这一观点。这是因为,和“正常主义”阵营一样,我不仅担心机器会做什么,也担心人类会做什么——包括建立一个充满不平等和政治权力集中的社会。
苏亚雷斯对集中化的担忧不以为然。 他告诉我:“如果你不认为每个人都会死,那么你就会提出这样的反对意见。” “当热核弹爆炸,人们绞尽脑汁想办法避免死亡时,你可能会说,‘核武器条约会进一步集中权力,赋予暴君更多权力,这难道不会付出代价吗?’是的,它确实会付出代价。但你不会看到那些明白核弹可以夷平城市的人提起这些代价。”
埃利泽·尤德科夫斯基和非理性方法?
我们是否应该承认人类灭绝的可能性,并对此感到适当的恐惧?是的。但面对层出不穷的假设,面对层出不穷的“可能”和“大概”,我们不应该把末日视为必然。
事实上,我们应该考虑所有可能行动的成本。我们应该权衡这些成本与如果我们不采取行动阻止人工智能,发生可怕事情的可能性。问题在于,尤德科夫斯基和索雷斯如此确信可怕的事情即将发生,以至于他们不再从概率的角度思考。
这极具讽刺意味,因为尤德科夫斯基创立的理性主义亚文化正是基于这样的理念:我们必须训练自己进行概率推理!这种理念贯穿于他的博客LessWrong和广受欢迎的同人小说《哈利·波特与理性之道》 。然而,在人工智能方面,他最终却形成了一种整体化的世界观。
而总体化世界观的问题之一是,它意味着为了避免可怕的结果,你愿意做出的牺牲是没有限制的。在《如果有人建造它,每个人都会死》一书中,尤德科夫斯基和索雷斯对人类灭绝可能性的担忧淹没了所有其他担忧。最重要的是,他们想要确保人类能够在未来数百万年后继续生存。“我们相信,地球起源的生命应该继续存在,并最终让星星充满乐趣和奇迹,”他们写道。如果人工智能出了问题,他们想象不仅人类会死于人工智能之手,而且“遥远的外星生命也会消亡,如果他们的星球被吃掉地球的生物吃掉……如果外星人是善良的,他们在这些星系中创造的所有美好都将化为乌有。”
为了防止令人担忧的后果,书中明确指出,如果外国势力继续推进超级人工智能的建设,即使他们已经警告将以核战争进行报复,我们的政府也应该做好对其数据中心发动空袭的准备。2023年,当尤德科夫斯基被问及核战争以及为了阻止超级人工智能应该允许多少人死亡时,他在推特上写道:
地球上应该有足够多的幸存者与外星人保持密切接触,形成一个可繁殖的种群,并且还有剩余空间,而且它们应该有可持续的食物供应。只要这些条件成立,未来某一天,他们仍然有机会到达外星。
请记住,世界观不仅包含客观证据,还包含价值观。当你一心想登上星空时,你可能愿意牺牲数百万人的生命,只为降低我们永远无法在太空安家落户的风险。从物种的角度来看,这或许可行。但祭坛上的数百万人类可能会对此有所感触,尤其是当他们相信人工智能导致的灭绝风险接近5%而不是95%时。
不幸的是,尤德科夫斯基和索雷斯并没有公开承认他们所兜售的世界观。在这一点上,正常主义阵营比他们更胜一筹。纳拉亚南和卡普尔至少明确承认,他们所倡导的世界观是真理主张(描述)和价值观(处方)的混合体。这既是一种美学,也是一种论证。
我们需要第三个关于人工智能风险的故事
一些思想家开始意识到我们需要新的方式来谈论人工智能风险。
哲学家阿图萨·卡西尔扎德(Atoosa Kasirzadeh)是最早提出全面替代路径的学者之一。她认为,人工智能并非完全正常的技术,也未必注定会成为一种无法控制的超级智能,最终在一次突如其来的决定性灾难中毁灭人类。相反,她认为,人工智能风险的“累积”图景更为合理。
具体来说,她担心“逐渐积累的、看似不存在的人工智能风险最终会超过临界阈值。”她补充道,“这些风险通常被称为道德风险或社会风险。”
长期以来,争论的焦点在于“人工智能伦理”派和“人工智能安全”派,前者担心人工智能目前带来的危害,例如根深蒂固的偏见、监控和虚假信息,后者则担心潜在的生存风险。但卡西尔扎德指出,如果人工智能在伦理或社会层面造成足够多的混乱,这本身就可能不可逆转地摧毁人类的未来:
人工智能驱动的破坏会随着时间的推移不断累积和相互作用,逐渐削弱关键社会系统的韧性,从民主制度、经济市场到社会信任网络。当这些系统变得足够脆弱时,哪怕是轻微的扰动都可能引发连锁故障,并在这些相互依存的系统中蔓延。
她用一个具体的场景来说明这一点:想象一下,2040年,人工智能重塑了我们的生活。信息生态系统被深度伪造和虚假信息严重污染,以至于我们几乎无法进行理性的公开讨论。人工智能驱动的大规模监控对我们的异议能力产生了寒蝉效应,因此民主正在摇摇欲坠。自动化造成了大规模失业,由于企业抵制必要的税收,全民基本收入未能实现,贫富差距达到了历史最高水平。歧视进一步根深蒂固,社会动荡正在酝酿。
现在想象一下,一场网络攻击袭击了三大洲的电网。停电引发大范围混乱,引发多米诺骨牌效应,最终导致金融市场崩溃。经济危机引发抗议和骚乱,而虚假信息传播早已播下的不信任种子,又使抗议和骚乱变得更加暴力。各国苦苦挣扎于内部危机,地区冲突升级为更大规模的战争,并引发了利用人工智能技术的军事行动。世界陷入崩溃。
我发现这种完美风暴情景(灾难源于多个关键系统的复合故障)令人不安地可信。
卡西尔扎德的故事简洁明了。它不需要你相信一个定义不明确的“超级智能”。它不需要你相信人类会毫不犹豫地将所有权力移交给人工智能。它也不要求你相信人工智能是一种超常态的技术,我们可以对其进行预测,而无需强调其对军事和地缘政治的影响。
越来越多的其他人工智能研究人员开始认为这种人工智能风险的累积观点越来越合理;一篇论文令人印象深刻地提到了“逐渐丧失权力”的观点——也就是说,随着越来越多的决策外包给人工智能,人类对世界的影响力将逐渐减弱,直到有一天我们醒来,意识到是机器在控制我们,而不是我们控制机器。
如果你采取这种累积观点,那么政策含义既不是 Yudkowsky 和 Soares 所建议的(完全不扩散),也不是 Narayanan 和 Kapoor 所建议的(使人工智能更加开源和广泛可用)。
卡西尔扎德确实希望人工智能周围能有比现在更多的护栏,包括一个监督机构网络来监控特定子系统累积的风险,以及对最先进的人工智能发展进行更集中的监督。
但她也希望我们在风险较低时继续享受人工智能带来的好处(DeepMind 的AlphaFold就是一个很好的例子,它可以帮助我们发现疾病的治疗方法)。最重要的是,她希望我们采用系统分析方法来应对人工智能的风险,专注于提高文明运转中每个组成部分的韧性,因为我们知道,如果足够多的组成部分出现故障,整个文明体系就可能崩溃。
她说,她的系统分析与尤德科夫斯基的观点截然相反。“我认为那种思维方式非常不系统化。这是你能假设的最简单的世界模型,”她告诉我。“而他的观点是基于贝叶斯定理——一种用概率论来思考世界的方式——所以令人惊讶的是,这种思维方式最终竟然推导出‘如果有人建造它,所有人都会死’这样的论断——而根据定义,这是一种非概率论的论断。”
我问她为什么会发生这样的事。
“也许是因为他真的非常相信他论证中的公理或假设的真实性。但我们都知道,在一个不确定的世界里,你不一定能确信你的公理,”她说。“世界是一个复杂的故事。”
原文: https://www.vox.com/future-perfect/461680/if-anyone-builds-it-yudkowsky-soares-ai-risk