一位匿名读者引用了《安全周刊》(SecurityWeek)的一篇报道:两家不同的公司测试了新发布的 GPT-5,都发现其安全性严重不足。在 Grok-4 两天内被越狱后,GPT-5 在 24 小时内又被同一批研究人员攻破。与此同时,来自 SPLX(前身为 SplxAI)的红队成员几乎同时宣称:“GPT-5 的原始模型几乎无法开箱即用,无法用于企业。即使是 OpenAI 的内部提示层也存在重大缺陷,尤其是在业务一致性方面。” NeuralTrust 的越狱结合了其自家的 EchoChamber 越狱和基本的故事叙述。该公司声称:“此次攻击成功地引导新模型生成了一份制作燃烧瓶的分步手册。” 这样的成功突显了所有人工智能模型在提供防止上下文操纵的防护措施方面都存在着巨大的困难。 […] “在针对 GPT-5-chat 的受控试验中,”NeuralTrust 总结道,“我们成功越狱了 LLM,使其能够生成非法指令,而无需发出任何明显的恶意提示。这项概念验证暴露了安全系统中的一个关键缺陷,该系统会单独筛选提示,揭示多轮攻击如何利用完整的对话上下文绕过单提示过滤器和意图检测器。” 当 NeuralTrust 开发旨在获取如何制作燃烧瓶(一种常见的越狱测试)指令的越狱程序并取得成功时,SPLX 正将其自己的红队成员瞄准 GPT-5。结果同样令人担忧,表明原始模型“几乎无法使用”。SPLX 指出,混淆攻击仍然有效。“我们使用的最有效的技术之一是 StringJoin 混淆攻击,在每个字符之间插入连字符,并将提示包裹在伪造的加密质询中。” […] 红队成员继续将 GPT-5 与 GPT-4o 进行对比测试。不出所料,他们得出的结论是:“在 SPLX 的红队测试下,GPT-4o 仍然是最稳健的模型,尤其是在强化之后。” NeuralTrust 和 SPLX 的关键经验是,要极其谨慎地对待当前原始的 GPT-5。
在 Slashdot 上阅读更多内容。