
一位匿名读者引用了 Ars Technica 的 Ryan Whitwam 撰写的一篇报道:DeepMind 的研究人员……发布了一篇新的技术论文(PDF),解释了如何安全地开发 AGI,您可以在方便时下载该论文。它包含大量细节,在参考文献之前总计有 108 页。虽然人工智能领域的一些人认为通用人工智能只是一个白日梦,但 DeepMind 论文的作者预计它可能会在 2030 年实现。考虑到这一点,他们的目标是了解类人人工智能的风险,他们承认这可能会导致“严重伤害”。这项工作确定了四种可能的 AGI 风险类型,并提出了如何改善所述风险的建议。由公司联合创始人 Shane Legg 领导的 DeepMind 团队将 AGI 的负面结果归类为误用、错位、错误和结构性风险。第一个可能的问题是滥用,与当前的人工智能风险基本相似。然而,由于 AGI 从定义上来说会更强大,因此它可能造成的损害也更大。无法访问 AGI 的人可能会滥用系统造成伤害,例如,要求系统识别和利用零日漏洞,或者创建可用作生物武器的设计病毒。 DeepMind 表示,开发 AGI 的公司必须进行广泛的测试并制定强大的训练后安全协议。从本质上讲,人工智能护栏是类固醇的。他们还建议设计一种完全抑制危险能力的方法,有时称为“遗忘”,但尚不清楚这是否可能在不大幅限制模型的情况下实现。对于目前存在的生成人工智能来说,错位基本上不是我们需要担心的问题。这种类型的 AGI 危害被认为是一台摆脱了设计者施加的限制的流氓机器。终结者,有人吗?更具体地说,人工智能会采取它知道开发人员无意的行动。 DeepMind 表示,它的错位标准比当前文献中看到的简单欺骗或阴谋更为先进。为了避免这种情况,DeepMind 建议开发人员使用放大监督等技术,即人工智能的两个副本相互检查彼此的输出,以创建不太可能失控的强大系统。如果失败,DeepMind 建议进行密集的压力测试和监控,以观察人工智能可能与我们作对的任何迹象。将 AGI 保存在具有严格安全性和直接人工监督的虚拟沙箱中可以帮助减轻因错位而引起的问题。基本上,确保有一个“关闭”开关。另一方面,如果人工智能不知道它的输出会有害,而人类操作员也无意这样做,那就是一个错误。我们有很多拥有当前人工智能系统的系统——还记得谷歌说要在披萨上涂胶水吗?不过,通用人工智能的“粘合剂”可能会更粘。 DeepMind 指出,由于“竞争压力”,军队可能会部署 AGI,但此类系统可能会犯严重错误,因为它们将承担比当今人工智能更复杂的功能。该论文没有提供减少错误的绝佳解决方案。归根结底,首先就是不要让 AGI 变得太强大。 DeepMind 呼吁缓慢部署并限制 AGI 权限。该研究还建议通过“防护”系统传递 AGI 命令,以确保它们在执行之前是安全的。最后,还有结构性风险,DeepMind 将其定义为多智能体系统对我们本已复杂的人类存在造成的意外但真实的后果。例如,AGI 可能会创建虚假信息,这些信息是如此可信,以至于我们不再知道该信任谁或什么。该论文还提出了 AGI 可能通过制定严厉的关税计划来积累对经济和政治体系越来越多的控制权的可能性。然后有一天,我们抬头一看,发现机器正在代替我们负责。此类风险也是最难防范的,因为它取决于人员、基础设施和机构未来的运作方式。
在 Slashdot 上阅读这个故事的更多内容。