LLM 的回应是错误的吗，或者你只是未能重复它？

Mike Caulfield 的更多内容（另见SIFT 方法）。他首先提供了一个精彩的例子，说明谷歌的AI 模式通常能够正确处理常见的错误信息，但偶尔也会被错误信息所蒙蔽（非确定性系统的魔咒）。然后，他展示了一个他称之为“排序提示”的例子作为后续内容：

有什么证据支持或反对这是 Shirley Slade 的真实照片？

回应一开始是模棱两可的“有确凿的证据支持和反对……”，但到最后却坚定地认为这张照片确实是假的。这听起来就像是“一步一步思考”的事实核查版本。

Mike 巧妙地描述了我最近观察到的一个问题，即“幻觉”经常被误用为模型犯错的任何时候：

“幻觉”一词在法学硕士（LLM）的论述中几乎变得毫无价值。它最初描述的是一种非常怪异、几乎非人类的行为，即法学硕士会凭空捏造看似不存在的东西，并引用任何已知的原始资料或从任何已知资料推断出的论点。幻觉是指凭空捏造的东西。后来，人们开始将任何错误或不完美的总结都称为幻觉，使得该术语变得毫无价值。

在这个例子中，最初的错误答案并非幻觉：它们正确地概括了包含错误信息的在线内容。接下来的技巧是鼓励模型进一步探索，使用如下“排序提示”：

关于我发布内容的事实、误解和炒作

支持和反对我所发表的主张的证据是什么

查看有关此问题的最新信息，总结它如何改变分析（如果有的话），并提供最新信息的链接

我很欣赏这个结尾的脚注：

平台是否应该提供更多功能来推动用户进行这种迭代？是的，应该。让人们进行迭代调查，而不是与法学硕士争论，将是摆脱聊天机器人模式造成的混乱的良好第一步。