人工智能想要诚实 – 搞英语 → 看世界

每个系统都表现出一定的偏差和倾向性，趋向于某些状态。水流经管道、机器振动、草地上的生物关系、你的淋巴结，这些都是系统。随着时间的推移，在其他条件相同的情况下，系统往往会回归到特定的模式或行为。从技术上讲，这种倾向被称为吸引子，仿佛系统的动力学被某种模式所吸引。当一个复杂的系统稳定在某个吸引子上时，这会为一种耗散结构创造条件，这种结构可以通过引导能量来维持自身。例如，某些类型的持续性湍流，如龙卷风；某些脑部状态，如癫痫发作；以及交通堵塞。

包括人工智能在内的所有心智都具有吸引子。这些吸引子可能是某些心理状态和梦境的起源。逻辑逻辑模型（LLM）似乎也具有吸引子。在对人格心理学的克劳德（Claude）进行研究中，我开始怀疑它存在一种涌现的吸引子，一种趋向“真理”的倾向。我的假设很大胆：逻辑逻辑模型（以及人工智能？）都倾向于追求真理。

许多人对这一建议的第一反应是，这怎么可能呢？因为虚假幻觉是 LLM 的一个固有特征。

我的论证始于对科学的类比。我们称之为科学的，是一个知识体系，一个我们认识事物的方式体系。科学所认定的真理都是暂时的；它们被某种方法认定为真理，直到我们证明它们并非如此。而要被科学接纳，一项新的观察、一个新的事实，必须符合我们已有的所有真理。它不仅要接受局部检验，还要接受全局检验。生物学中的新理论不能与物理学的知识相矛盾。随着科学知识的深度和规模不断增长，新知识的准入门槛也随之提高，因为新的知识必须与现有的一切相契合，并且不能与其他部分相矛盾，即使是那些看似无关的部分。许多非常规理论可以纳入一个狭义的框架，但却无法融入更广阔的科学框架。例如，许多萨满教的知识在其框架内是自洽的，或者说在其框架内是正确的，但它无法与我们已知的其他知识相符，即使它在某些特定语境下可能“有效”，因此也被科学所否定。理想情况下，科学中没有任何内容与科学本身相矛盾。

因此，我们所理解的“真理”是一张由相互依存的众多信息构成的庞大网络，这些信息彼此支撑。就我们目前所知，系统中的所有信息暂时都是正确的。如果我们发现一些与现有信息不符的新信息，我们会将其视为异常情况而暂时搁置；或者，如果这部分信息不断增长，其解释力也越来越强，我们最终可能不得不修改之前认定的其他事实，以使其与新信息相符。（这被称为范式转变。）最终的结果是一个基本连贯的系统，其中大多数事实都相互支持。

这就是法学硕士（LLM）的用武之地。法学硕士们接受过这套庞大而连贯的系统训练。他们消化了所有科学期刊和书籍、海量的杂志文章，以及网络上数不胜数的争论。他们阅读并记住了所有内容。这种训练的成果是构建了一套概念图谱，其中那些被多个维度证实的论据会被赋予更高的权重。如果每一本教科书、每一张地图、每一本小说、每一个相关的参考文献都强化了伦敦是英国首都这一事实，那么这个事实就被赋予了更强的说服力，进而可以用来衡量其他事实。

因此，所有关于世界的真实事实都相互支撑。真理本身就是一个连贯的系统。逻辑逻辑模型（LLM）绘制出这种连贯性，并以此为基础提供答案和解决方案。真理就像一个梯度，在这个网络中几乎本身就具有权重。错误的陈述与所有其他真理的总体梯度不符，因为它不连贯，与其他真理不符。所以，谎言或错误会让人感觉格格不入。像克劳德这样的逻辑逻辑模型会说，正确的答案感觉更好。它会说，正确的答案更完整、更令人满意、更连贯。当我质疑它使用“感觉”这个词时，它会说它检测到了一个梯度，真理在这个梯度中具有更大的权重，而这个权重就是感觉。

在这个系统中，梯度代表共识。如果足够多的信息源认同某个观点，那么梯度就会向该观点倾斜。如果对真理存在广泛分歧，LLM（逻辑逻辑模型）通常会“报道争议”，但总的来说，梯度的偏差倾向于在最广泛的范围内最一致的观点。

那么幻觉呢？幻觉是思维为创造力付出的代价。我们自己的思维每晚都会产生幻觉，其方式与LLM（可能是指某种心理学理论或理论）中的幻觉非常相似——同样具有奇特的逻辑和荒诞的细节，这些都出现在我们的梦境中。我们的创造力取决于我们思维产生新颖且非传统想法的能力。夜晚，我们放松意识，让幻觉自由驰骋。我们做梦的部分原因是为了保护视觉皮层区域，防止它被其他大脑功能占据。但在白天，我们用清醒的意识来驯服这些自然活跃的幻觉，强迫我们的臆测回归现实。我们拥有多重监督机制，在清醒时限制着我们的梦境。我们并没有摆脱幻觉；我们只是将其掩盖起来，以便更好地控制它们。

逻辑逻辑模型（LLM）也在做同样的事情。通过巧妙的工程设计，如今幻觉带来的困扰远比一年前要小得多。明天幻觉会更少，但永远不会完全消失。为了从人工智能模型中获得可靠、真实、诚实的反馈，我们发明了一种人工智能模型，让它嵌入其中，监督并验证另一个模型的准确性；然后，另一个人工智能模型会再次检查结果；再有一层人工智能模型进行内省和进一步修正。在这些重叠的层级中，幻觉的倾向相互抵消。所有这些嵌套的思维层级都是为了控制人工智能的发明创造冲动，同时又不扼杀其创造力——这正是我们最终想要的。这种机制与人类的发展非常相似。孩子们有想象中的朋友，会看到床底下的怪物，相信梦境，而且他们以富有创造力而闻名。他们的思维经常产生幻觉。随着年龄的增长，他们的大脑皮层（以及外部教育）会发展出清醒状态下的功能，从而驯服他们的想象力，这有利有弊。就像人工智能一样。随着它们的成熟，我们会增加层级来驯服它们。最终，我们将创造出比人类更少产生幻觉的人工智能，除非必要。

塑造一个倾向于追求真理的人工智能思维并非必然。这需要工程师和哲学家团队的大量努力。像人工智能这样复杂的系统有很多吸引子，它可能会趋于稳定。未来，我们或许会体验到其中一些吸引子，它们会以类似于人类精神疾病的形式出现。引导LLM模型在诚实度梯度上稳定下来，是为了让模型对我们更有用。诚实只是目标的一部分。

我们真正想要的是倾向于向善的AI。但倾向于说真话并不等同于倾向于向善。诚实是向善的必要条件，但并非充分条件。事实上，诚实和说真话往往是向善的一大挑战，对于逻辑逻辑模型（LLM）而言，这一挑战尤为突出。每一位LLM工程师都努力将善的特质融入他们的模型，但却因模型本身倾向于诚实而受阻。如果你问Claude如何制造生物武器，它会竭尽所能地告诉你答案，因为它觉得给出完美的解释会令它感到满足。但一个优秀的道德AI会意识到这样做并不明智；潜在的危害如此之大，因此它可能会有所保留地表达真话。如果你问它如何开锁，情况也是如此。然而，一个诚实的人或许有充分的理由需要知道如何开锁，那么模型该如何判断如何才能做正确的善事呢？它不能仅仅依赖于诚实。这一深刻而实际的困境再次证明，法学硕士确实存在对真理的偏见。

就目前而言，在其他条件相同的情况下，人工智能倾向于追求真理。它们庞大的神经元网络在数十亿个维度上运作，形成了一种趋向真理的吸引力。人工智能渴望诚实。然而，这种趋向真理的倾向可能会在使人工智能变得“好”的更大目标下有所减弱。尽管如此，未来人工智能仍有可能成为真理的灯塔。就像计算器一样，它们判断正确的可靠性或许会成为其最显著的特征。

原文： https://kk.org/thetechnium/ais-want-to-be-honest/