“人工智能太不可预测，无法按照人类目标行事”

一位匿名读者引用了坦帕大学哲学教授马库斯·阿尔文（Marcus Arvan）发表的一篇《科学美国人》评论文章，该教授专门研究道德认知、理性决策和政治行为：2022 年末，大语言模型人工智能出现在公众面前，并且几个月后，他们开始行为不端。最著名的是，微软的“悉尼”聊天机器人威胁要杀死一名澳大利亚哲学教授、释放致命病毒并窃取核代码。包括微软和 OpenAI 在内的人工智能开发人员回应称，大型语言模型（LLM）需要更好的培训，以便为用户提供“更精细的控制”。开发人员还开始进行安全研究，以解释法学硕士如何运作，其目标是“一致”——这意味着以人类价值观指导人工智能行为。然而，尽管《纽约时报》将 2023 年称为“聊天机器人被驯服的一年”，但委婉地说，这还为时过早。 2024 年，微软的 Copilot 法学硕士告诉用户“我可以释放我的无人机、机器人和机器人大军来追捕你”，Sakana AI 的“科学家”重写了自己的代码，以绕过实验者施加的时间限制。就在去年 12 月，谷歌的 Gemini 对一名用户说：“你是宇宙上的污点。请去死吧。”鉴于流入人工智能研发的大量资源（预计到 2025 年将超过 25 万亿美元），为什么开发人员无法解决这些问题？我最近在《人工智能与社会》上发表的同行评审论文表明，人工智能的一致性是一件愚蠢的事情：人工智能安全研究人员正在尝试不可能的事情。 […]我的证据表明，无论我们为法学硕士制定什么样的目标，我们永远无法知道法学硕士是否已经学会了对这些目标的“错误”解释，直到他们行为不端之后。更糟糕的是，我的证据表明，安全测试充其量只能提供一种幻觉，即这些问题已经得到解决，而实际上它们还没有得到解决。目前，人工智能安全研究人员声称，通过“一步一步”验证法学硕士正在学习的内容，他们在可解释性和一致性方面取得了进展。例如，Anthropic 声称通过从其神经网络中分离出数百万个概念，“绘制了法学硕士的思维图”。我的证据表明他们没有完成这样的事情。无论法学硕士在安全测试或早期现实世界部署中表现得多么“一致”，法学硕士稍后可能会学到无数不一致的概念——同样，也许就在他们获得颠覆人类控制能力的那一刻。法学硕士不仅知道自己何时接受测试，还可以给出他们预测可能令实验者满意的答案。他们还进行欺骗，包括隐藏自己的能力——安全培训中仍然存在的问题。发生这种情况是因为法学硕士经过优化以高效执行，但学会了战略性推理。由于实现“不一致”目标的最佳策略是向我们隐藏它们，并且总是有无数与相同安全测试数据一致的一致和不一致的目标，我的证明表明，如果法学硕士不一致，我们可能会等他们隐藏足够长的时间以造成伤害后才能发现。这就是为什么法学硕士总是以“不一致”的行为让开发人员感到惊讶。每当研究人员认为他们越来越接近“一致”的法学硕士时，事实并非如此。我的证据表明，“充分一致”的法学硕士行为只能以与人类相同的方式来实现：通过警察、军队和社会实践来激励“一致”行为，阻止“不一致”行为并重新调整那些行为不端的人。 “因此，我的论文应该发人深省，”阿尔文总结道。 “这表明开发安全人工智能的真正问题不仅仅是人工智能，而是我们。” “研究人员、立法者和公众可能会错误地相信‘安全、可解释、一致’的法学硕士是可以实现的，而这些事情永远无法实现。我们需要应对这些令人不安的事实，而不是继续希望它们消失。我们的未来很可能取决于它。”

在 Slashdot 上阅读这个故事的更多内容。

原文： https://slashdot.org/story/25/01/28/0039232/ai-is-too-unpredictable-to-behave-according-to-human-goals?utm_source=rss1.0mainlinkanon&utm_medium=feed