一位匿名读者分享了一份报告:Palo Alto Networks Unit 42 的安全研究人员发现了让大型语言模型 (LLM) 聊天机器人忽略其防护栏的关键,而且非常简单。你只需要确保你的提示符语法糟糕,并且像这个一样是一个冗长的连续句子,在句号之前包含所有信息,这样防护栏就有机会在越狱生效之前发挥作用,并引导模型提供开发人员希望被过滤掉的“有害”或其他被禁止的响应。该论文还提出了一种“对数差距”分析方法,作为保护模型免受此类攻击的潜在基准。“我们的研究引入了一个关键概念:拒绝-肯定对数差距,”研究人员 Tung-Ling “Tony” Li 和 Hongliang Liu 在 Unit 42 的一篇博客文章中解释道。 “这意味着训练过程实际上并没有消除产生有害反应的可能性——它只是降低了其发生的可能性。攻击者仍然有可能‘缩小差距’,最终发现有害的反应。”
在 Slashdot 上阅读更多内容。