研究人员破解人工智能的黑匣子——并利用其中发现来控制它。

一种新工具只需相对较少的资源即可绘制算法的内部运作过程并引导其行为。

大型人工智能系统的内部运作机制仍然很大程度上不透明，这引发了严重的安全性和信任问题。如今，研究人员开发出一种提取和操控模型行为内部概念的技术，为理解和引导其活动提供了一种新方法。

现代人工智能模型是工程学的奇迹，但即使是它们的创造者也仍然不清楚它们内部是如何表示知识的。这就是为什么提示方式的细微变化会产生截然不同的结果。仅仅要求模型在回答问题前展示其计算过程通常就能提高准确率，而某些故意设置的恶意提示甚至可以绕过内置的安全机制。

这促使人们开展大量研究，旨在揭示这些模型神经网络中与特定概念相对应的活动模式。研究人员希望利用这些方法更好地理解模型为何会以特定方式运行，并有可能实时调整其行为。

现在，研究人员发现了一种从模型中提取概念的高效新方法，该方法适用于语言、推理和视觉算法。在发表于《科学》杂志的一篇论文中，研究人员利用这些概念来监控并有效地引导模型行为。

“我们的研究结果表明，内部表征在提升人工智能安全性和模型能力方面具有强大作用，”作者写道。“我们展示了这些表征如何实现模型控制，从而揭示模型漏洞并改进模型能力。”

该团队方法的关键在于一种名为递归特征机（RFM）的新算法。他们使用成对的提示信息训练该算法——有些提示信息包含目标概念，有些则不包含——然后识别模型神经网络中跟踪每个概念的活动模式。

这使得算法能够学习“概念向量”——本质上是引导模型朝着特定概念方向发展的活动模式。这些向量可用于在模型生成输出时修改其内部流程，从而引导其趋向或远离特定的概念或行为。

为了测试该方法，研究人员让 GPT-4o 生成 512 个概念，涵盖五个概念类别，并针对每个类别生成训练数据。他们从数据中提取概念向量，并利用这些向量来引导几个大型 AI 模型的行为。

该方法适用于多种模型类型，包括大型语言模型、视觉语言模型和推理模型。令人惊讶的是，他们发现更新、更大、性能更好的模型实际上比一些较小的模型更容易控制。

至关重要的是，该团队证明了他们可以利用这项技术来发现并解决模型中的严重漏洞。在一项测试中，他们创建了一个“反拒绝”概念的向量，从而绕过了视觉语言模型中内置的安全机制，防止模型给出关于如何服用毒品的建议。此外，他们还学习了一个“反欺骗”概念的向量，并成功地利用该向量引导模型避免给出误导性答案。

该研究最有趣的发现之一是，提取的特征可以跨语言迁移。用英语训练数据学习到的概念向量可以用来改变其他语言的输出。研究人员还发现，他们可以将多个概念向量组合起来，以更复杂的方式操控模型行为。

但这项新技术的真正优势在于其效率。它仅需不到 500 个训练样本，在单个 Nvidia A100 GPU 上处理时间不到一分钟，就能识别与某个概念相关的活动模式并引导用户朝着该概念前进。

研究人员表示，这不仅可以系统地映射大型人工智能模型中的概念，而且与现有方法相比，还可以更有效地调整训练后的模型行为。

这种方法距离实现完全的模型透明化还有很长的路要走。但它是日益丰富的模型分析工具库中的一个有用补充，随着人工智能不断深入我们的生活，这些工具库的重要性也将日益凸显。