一句长话就能让法学硕士（LLM）行为不当

一位匿名读者分享了一份报告：Palo Alto Networks Unit 42 的安全研究人员发现了让大型语言模型 (LLM) 聊天机器人忽略其防护栏的关键，而且非常简单。你只需要确保你的提示符语法糟糕，并且像这个一样是一个冗长的连续句子，在句号之前包含所有信息，这样防护栏就有机会在越狱生效之前发挥作用，并引导模型提供开发人员希望被过滤掉的“有害”或其他被禁止的响应。该论文还提出了一种“对数差距”分析方法，作为保护模型免受此类攻击的潜在基准。“我们的研究引入了一个关键概念：拒绝-肯定对数差距，”研究人员 Tung-Ling “Tony” Li 和 Hongliang Liu 在 Unit 42 的一篇博客文章中解释道。 “这意味着训练过程实际上并没有消除产生有害反应的可能性——它只是降低了其发生的可能性。攻击者仍然有可能‘缩小差距’，最终发现有害的反应。”