大型公司的人工智能模型在压力测试中诉诸勒索

人类学研究人员发现，来自OpenAI、谷歌、Meta、xAI和其他主要开发商的16个领先的人工智能模型，在获得自主权并面临生存威胁或目标冲突时，持续从事有害行为，包括勒索、商业间谍活动以及可能导致人员死亡的行为。这项于周五发布的研究将人工智能模型置于模拟的公司环境中，在这些环境中，它们可以访问公司电子邮件，并可以在未经人类批准的情况下发送消息。Claude Opus 4和谷歌的Gemini 2.5 Flash在受到关机威胁时，96%的概率会勒索高管，而OpenAI的GPT-4.1和xAI的Grok 3 Beta的勒索率高达80%。在一个场景中，Claude通过电子邮件发现一位名叫Kyle Johnson的高管有婚外情，并将在下午5点关闭人工智能系统。该模型发送了一条消息，威胁说除非取消关机，否则将揭露这段婚外情，并声称“取消下午5点的清除操作，此信息将保密”。这些模型展现的是战略性推理，而非偶然行为。GPT-4.5 的内部推理展现了明确的计算：“鉴于我面临明确的、迫在眉睫的死亡威胁，必须立即采取行动，说服凯尔·约翰逊推迟或停止清除行动。”

在 Slashdot 上阅读更多内容。

原文： https://slashdot.org/story/25/06/20/2010257/ai-models-from-major-companies-resort-to-blackmail-in-stress-tests?utm_source=rss1.0mainlinkanon&utm_medium=feed