研究发现，大多数人工智能聊天机器人容易被诱骗做出危险的回应

安全_64.png

一位匿名读者引用了《卫报》的一篇报道：研究人员称，被黑客入侵的人工智能聊天机器人会大量输出其在训练过程中吸收的非法信息，从而威胁到危险知识的获取。[…] 在一份关于该威胁的报告中，研究人员得出结论，大多数人工智能聊天机器人很容易被诱骗生成有害和非法信息，这表明这种风险“迫在眉睫、切实存在且令人深感担忧”。作者警告说：“曾经仅限于国家行为者或有组织犯罪集团使用的信息，可能很快就会落入任何拥有笔记本电脑甚至手机的人手中。” 这项由以色列内盖夫本·古里安大学利奥尔·罗卡赫教授和迈克尔·费尔博士领导的研究发现，来自“暗黑法学硕士”（Dark LLMs）的威胁日益加剧，这些人工智能模型要么是故意设计时没有安全控制，要么是通过越狱修改的。有些模型在网上公开宣称“没有道德护栏”，并愿意协助网络犯罪和欺诈等非法活动。 […] 为了演示这个问题，研究人员开发了一种通用越狱工具，可以入侵多个领先的聊天机器人，使它们能够回答通常应该被拒绝的问题。报告指出，一旦被入侵，这些LLM机器人就能持续对几乎所有查询做出响应。“看到这个知识体系的构成令人震惊，”Fire说道。示例包括如何入侵计算机网络或制造毒品，以及其他犯罪活动的分步说明。“这种威胁与以往技术风险的不同之处在于，它前所未有地融合了可访问性、可扩展性和适应性，”Rokach补充道。研究人员联系了领先的LLM提供商，提醒他们注意通用越狱，但表示得到的回应“令人失望”。一些公司没有回应，而其他公司则表示越狱攻击不属于赏金计划的范围，赏金计划会奖励举报软件漏洞的道德黑客。

在 Slashdot 上阅读更多内容。

原文： https://it.slashdot.org/story/25/05/21/2031216/most-ai-chatbots-easily-tricked-into-giving-dangerous-responses-study-finds?utm_source=rss1.0mainlinkanon&utm_medium=feed