人类研究人员读完克劳德的《心灵》后的发现令他们感到惊讶

随着人工智能力量的增强，绘制其内心世界变得越来越重要。

尽管人们普遍将其与思维和推理进行类比，但我们对人工智能“思维”的了解却非常有限。 Anthropic 的新研究有助于进一步揭开面纱。

追踪大型语言模型如何生成看似智能的行为可以帮助我们构建更强大的系统，但对于理解如何在这些系统接近甚至超越我们的能力时控制和指导它们也至关重要。

这很有挑战性。较旧的计算机程序是使用逻辑规则手工编码的。但神经网络会自己学习技能，而且它们表示所学内容的方式非常难以解析，导致人们将这些模型称为“黑匣子”。

不过，我们正在取得进展，而 Anthropic 正在引领这一潮流。

去年，该公司表明它可以将大型语言模型中的活动与具体和抽象概念联系起来。在两篇新论文中，它证明现在可以追踪模型如何将这些概念链接在一起以推动决策，并使用该技术来分析模型在某些关键任务上的行为方式。

研究人员在概述结果的博客文章中写道：“这些发现不仅具有科学意义，而且代表了我们在理解人工智能系统并确保其可靠性的目标方面取得了重大进展。”

Anthropic 团队对该公司最小的产品 Claude 3.5 Haiku 模型进行了研究。在第一篇论文中，他们训练了一个“替换模型”，该模型模仿俳句的工作方式，但用更容易解释的特征替换了内部特征。

然后，该团队向这个替代模型提供各种提示，并追踪它如何将概念与决定模型响应的“电路”联系起来。为此，他们测量了模型中的各种特征在解决问题时如何相互影响。这使他们能够检测中间的“思考”步骤以及模型如何将概念组合成最终输出。

在第二篇论文中，研究人员使用这种方法来询问同一模型在面对各种任务时的表现，包括多步骤推理、创作诗歌、进行医学诊断和做数学。他们的发现既令人惊讶又具有启发性。

大多数大型语言模型都可以用多种语言进行回复，但研究人员想知道该模型“在头脑中”使用什么语言。他们发现，事实上，该模型对于各种概念具有与语言无关的特征，有时在选择要使用的语言之前首先将它们链接在一起。

研究人员想要探讨的另一个问题是一个普遍的概念，即大型语言模型的工作原理是简单地预测句子中的下一个单词应该是什么。然而，当团队提示他们的模型生成一首诗中的下一行时，他们发现该模型实际上首先为该行的末尾选择了一个押韵词，然后从那里开始向后工作。研究人员表示，这表明这些模型确实进行了一种长期规划。

该团队还研究了大型语言模型中另一种鲜为人知的行为，称为“不忠实推理”。有证据表明，当被要求解释他们如何做出决定时，模型有时会提供与他们所采取的步骤不相符的合理解释。

为了探索这一点，研究人员要求模型将两个数字相加，并解释它是如何得出结论的。他们发现该模型使用了一种不寻常的方法，即组合近似值，然后计算出结果必须以什么数字结束，以完善其答案。

然而，当被要求解释它是如何得出结果时，它声称使用了一种完全不同的方法——这种方法可以在数学课上学到，并且很容易在网上获得。研究人员表示，这表明模型学习做事的过程与提供解释的过程是分开的，并且可能对确保机器值得信赖并按照我们希望的方式运行的努力产生影响。

研究人员对他们的工作进行了警告，指出该方法只能捕获幕后发生的事情的模糊且不完整的图像，并且可能需要花费数小时的人力来跟踪单个提示的电路。但随着像克劳德这样的系统融入各行各业，这些能力将变得越来越重要。