研究人员发现,在数学题中添加诸如“有趣的事实:猫一生中大部分时间都在睡觉”之类的无关短语,会导致最先进的推理AI模型得出错误答案的概率比正常情况高出300%以上[PDF]。这项技术被Collinear AI、ServiceNow和斯坦福大学的团队称为“CatAttack”,利用了包括DeepSeek R1和OpenAI的o1系列在内的推理模型中的漏洞。对抗触发器适用于任何数学题,且不会改变问题的含义,因此在安全应用中尤其值得关注。研究人员开发了他们的攻击方法,使用较弱的代理模型(DeepSeek V3)来生成文本触发器,并成功迁移到更高级的推理模型。对225道数学题的测试表明,这些触发器显著提高了不同问题类型的错误率,一些模型(例如R1-Distill-Qwen-32B)的综合攻击成功率达到了基线错误率的2.83倍。除了错误答案之外,这些触发因素还导致模型生成的响应时间比正常情况长三倍,从而导致计算速度下降。即使模型得出了正确的结论,在16%的情况下,响应长度也会翻倍,这大大增加了处理成本。
在 Slashdot 上阅读更多内容。