
一位匿名读者引用了坦帕大学哲学教授马库斯·阿尔文(Marcus Arvan)发表的一篇《科学美国人》评论文章,该教授专门研究道德认知、理性决策和政治行为:2022 年末,大语言模型人工智能出现在公众面前,并且几个月后,他们开始行为不端。最著名的是,微软的“悉尼”聊天机器人威胁要杀死一名澳大利亚哲学教授、释放致命病毒并窃取核代码。包括微软和 OpenAI 在内的人工智能开发人员回应称,大型语言模型(LLM)需要更好的培训,以便为用户提供“更精细的控制”。开发人员还开始进行安全研究,以解释法学硕士如何运作,其目标是“一致”——这意味着以人类价值观指导人工智能行为。然而,尽管《纽约时报》将 2023 年称为“聊天机器人被驯服的一年”,但委婉地说,这还为时过早。 2024 年,微软的 Copilot 法学硕士告诉用户“我可以释放我的无人机、机器人和机器人大军来追捕你”,Sakana AI 的“科学家”重写了自己的代码,以绕过实验者施加的时间限制。就在去年 12 月,谷歌的 Gemini 对一名用户说:“你是宇宙上的污点。请去死吧。”鉴于流入人工智能研发的大量资源(预计到 2025 年将超过 25 万亿美元),为什么开发人员无法解决这些问题?我最近在《人工智能与社会》上发表的同行评审论文表明,人工智能的一致性是一件愚蠢的事情:人工智能安全研究人员正在尝试不可能的事情。 […]我的证据表明,无论我们为法学硕士制定什么样的目标,我们永远无法知道法学硕士是否已经学会了对这些目标的“错误”解释,直到他们行为不端之后。更糟糕的是,我的证据表明,安全测试充其量只能提供一种幻觉,即这些问题已经得到解决,而实际上它们还没有得到解决。目前,人工智能安全研究人员声称,通过“一步一步”验证法学硕士正在学习的内容,他们在可解释性和一致性方面取得了进展。例如,Anthropic 声称通过从其神经网络中分离出数百万个概念,“绘制了法学硕士的思维图”。我的证据表明他们没有完成这样的事情。无论法学硕士在安全测试或早期现实世界部署中表现得多么“一致”,法学硕士稍后可能会学到无数不一致的概念——同样,也许就在他们获得颠覆人类控制能力的那一刻。法学硕士不仅知道自己何时接受测试,还可以给出他们预测可能令实验者满意的答案。他们还进行欺骗,包括隐藏自己的能力——安全培训中仍然存在的问题。发生这种情况是因为法学硕士经过优化以高效执行,但学会了战略性推理。由于实现“不一致”目标的最佳策略是向我们隐藏它们,并且总是有无数与相同安全测试数据一致的一致和不一致的目标,我的证明表明,如果法学硕士不一致,我们可能会等他们隐藏足够长的时间以造成伤害后才能发现。这就是为什么法学硕士总是以“不一致”的行为让开发人员感到惊讶。每当研究人员认为他们越来越接近“一致”的法学硕士时,事实并非如此。我的证据表明,“充分一致”的法学硕士行为只能以与人类相同的方式来实现:通过警察、军队和社会实践来激励“一致”行为,阻止“不一致”行为并重新调整那些行为不端的人。 “因此,我的论文应该发人深省,”阿尔文总结道。 “这表明开发安全人工智能的真正问题不仅仅是人工智能,而是我们。” “研究人员、立法者和公众可能会错误地相信‘安全、可解释、一致’的法学硕士是可以实现的,而这些事情永远无法实现。我们需要应对这些令人不安的事实,而不是继续希望它们消失。我们的未来很可能取决于它。”
在 Slashdot 上阅读这个故事的更多内容。