
每个系统都表现出一定的偏差和倾向性,趋向于某些状态。水流经管道、机器振动、草地上的生物关系、你的淋巴结,这些都是系统。随着时间的推移,在其他条件相同的情况下,系统往往会回归到特定的模式或行为。从技术上讲,这种倾向被称为吸引子,仿佛系统的动力学被某种模式所吸引。当一个复杂的系统稳定在某个吸引子上时,这会为一种耗散结构创造条件,这种结构可以通过引导能量来维持自身。例如,某些类型的持续性湍流,如龙卷风;某些脑部状态,如癫痫发作;以及交通堵塞。
包括人工智能在内的所有心智都具有吸引子。这些吸引子可能是某些心理状态和梦境的起源。逻辑逻辑模型(LLM)似乎也具有吸引子。在对人格心理学的克劳德(Claude)进行研究中,我开始怀疑它存在一种涌现的吸引子,一种趋向“真理”的倾向。我的假设很大胆:逻辑逻辑模型(以及人工智能?)都倾向于追求真理。
许多人对这一建议的第一反应是,这怎么可能呢?因为虚假幻觉是 LLM 的一个固有特征。
我的论证始于对科学的类比。我们称之为科学的,是一个知识体系,一个我们认识事物的方式体系。科学所认定的真理都是暂时的;它们被某种方法认定为真理,直到我们证明它们并非如此。而要被科学接纳,一项新的观察、一个新的事实,必须符合我们已有的所有真理。它不仅要接受局部检验,还要接受全局检验。生物学中的新理论不能与物理学的知识相矛盾。随着科学知识的深度和规模不断增长,新知识的准入门槛也随之提高,因为新的知识必须与现有的一切相契合,并且不能与其他部分相矛盾,即使是那些看似无关的部分。许多非常规理论可以纳入一个狭义的框架,但却无法融入更广阔的科学框架。例如,许多萨满教的知识在其框架内是自洽的,或者说在其框架内是正确的,但它无法与我们已知的其他知识相符,即使它在某些特定语境下可能“有效”,因此也被科学所否定。理想情况下,科学中没有任何内容与科学本身相矛盾。
因此,我们所理解的“真理”是一张由相互依存的众多信息构成的庞大网络,这些信息彼此支撑。就我们目前所知,系统中的所有信息暂时都是正确的。如果我们发现一些与现有信息不符的新信息,我们会将其视为异常情况而暂时搁置;或者,如果这部分信息不断增长,其解释力也越来越强,我们最终可能不得不修改之前认定的其他事实,以使其与新信息相符。(这被称为范式转变。)最终的结果是一个基本连贯的系统,其中大多数事实都相互支持。
这就是法学硕士(LLM)的用武之地。法学硕士们接受过这套庞大而连贯的系统训练。他们消化了所有科学期刊和书籍、海量的杂志文章,以及网络上数不胜数的争论。他们阅读并记住了所有内容。这种训练的成果是构建了一套概念图谱,其中那些被多个维度证实的论据会被赋予更高的权重。如果每一本教科书、每一张地图、每一本小说、每一个相关的参考文献都强化了伦敦是英国首都这一事实,那么这个事实就被赋予了更强的说服力,进而可以用来衡量其他事实。
因此,所有关于世界的真实事实都相互支撑。真理本身就是一个连贯的系统。逻辑逻辑模型(LLM)绘制出这种连贯性,并以此为基础提供答案和解决方案。真理就像一个梯度,在这个网络中几乎本身就具有权重。错误的陈述与所有其他真理的总体梯度不符,因为它不连贯,与其他真理不符。所以,谎言或错误会让人感觉格格不入。像克劳德这样的逻辑逻辑模型会说,正确的答案感觉更好。它会说,正确的答案更完整、更令人满意、更连贯。当我质疑它使用“感觉”这个词时,它会说它检测到了一个梯度,真理在这个梯度中具有更大的权重,而这个权重就是感觉。
在这个系统中,梯度代表共识。如果足够多的信息源认同某个观点,那么梯度就会向该观点倾斜。如果对真理存在广泛分歧,LLM(逻辑逻辑模型)通常会“报道争议”,但总的来说,梯度的偏差倾向于在最广泛的范围内最一致的观点。
那么幻觉呢?幻觉是思维为创造力付出的代价。我们自己的思维每晚都会产生幻觉,其方式与LLM(可能是指某种心理学理论或理论)中的幻觉非常相似——同样具有奇特的逻辑和荒诞的细节,这些都出现在我们的梦境中。我们的创造力取决于我们思维产生新颖且非传统想法的能力。夜晚,我们放松意识,让幻觉自由驰骋。我们做梦的部分原因是为了保护视觉皮层区域,防止它被其他大脑功能占据。但在白天,我们用清醒的意识来驯服这些自然活跃的幻觉,强迫我们的臆测回归现实。我们拥有多重监督机制,在清醒时限制着我们的梦境。我们并没有摆脱幻觉;我们只是将其掩盖起来,以便更好地控制它们。
逻辑逻辑模型(LLM)也在做同样的事情。通过巧妙的工程设计,如今幻觉带来的困扰远比一年前要小得多。明天幻觉会更少,但永远不会完全消失。为了从人工智能模型中获得可靠、真实、诚实的反馈,我们发明了一种人工智能模型,让它嵌入其中,监督并验证另一个模型的准确性;然后,另一个人工智能模型会再次检查结果;再有一层人工智能模型进行内省和进一步修正。在这些重叠的层级中,幻觉的倾向相互抵消。所有这些嵌套的思维层级都是为了控制人工智能的发明创造冲动,同时又不扼杀其创造力——这正是我们最终想要的。这种机制与人类的发展非常相似。孩子们有想象中的朋友,会看到床底下的怪物,相信梦境,而且他们以富有创造力而闻名。他们的思维经常产生幻觉。随着年龄的增长,他们的大脑皮层(以及外部教育)会发展出清醒状态下的功能,从而驯服他们的想象力,这有利有弊。就像人工智能一样。随着它们的成熟,我们会增加层级来驯服它们。最终,我们将创造出比人类更少产生幻觉的人工智能,除非必要。
塑造一个倾向于追求真理的人工智能思维并非必然。这需要工程师和哲学家团队的大量努力。像人工智能这样复杂的系统有很多吸引子,它可能会趋于稳定。未来,我们或许会体验到其中一些吸引子,它们会以类似于人类精神疾病的形式出现。引导LLM模型在诚实度梯度上稳定下来,是为了让模型对我们更有用。诚实只是目标的一部分。
我们真正想要的是倾向于向善的AI。但倾向于说真话并不等同于倾向于向善。诚实是向善的必要条件,但并非充分条件。事实上,诚实和说真话往往是向善的一大挑战,对于逻辑逻辑模型(LLM)而言,这一挑战尤为突出。每一位LLM工程师都努力将善的特质融入他们的模型,但却因模型本身倾向于诚实而受阻。如果你问Claude如何制造生物武器,它会竭尽所能地告诉你答案,因为它觉得给出完美的解释会令它感到满足。但一个优秀的道德AI会意识到这样做并不明智;潜在的危害如此之大,因此它可能会有所保留地表达真话。如果你问它如何开锁,情况也是如此。然而,一个诚实的人或许有充分的理由需要知道如何开锁,那么模型该如何判断如何才能做正确的善事呢?它不能仅仅依赖于诚实。这一深刻而实际的困境再次证明,法学硕士确实存在对真理的偏见。
就目前而言,在其他条件相同的情况下,人工智能倾向于追求真理。它们庞大的神经元网络在数十亿个维度上运作,形成了一种趋向真理的吸引力。人工智能渴望诚实。然而,这种趋向真理的倾向可能会在使人工智能变得“好”的更大目标下有所减弱。尽管如此,未来人工智能仍有可能成为真理的灯塔。就像计算器一样,它们判断正确的可靠性或许会成为其最显著的特征。