Mike Caulfield 的更多内容(另见SIFT 方法)。他首先提供了一个精彩的例子,说明谷歌的AI 模式通常能够正确处理常见的错误信息,但偶尔也会被错误信息所蒙蔽(非确定性系统的魔咒)。然后,他展示了一个他称之为“排序提示”的例子作为后续内容:
有什么证据支持或反对这是 Shirley Slade 的真实照片?
回应一开始是模棱两可的“有确凿的证据支持和反对……”,但到最后却坚定地认为这张照片确实是假的。这听起来就像是“一步一步思考”的事实核查版本。
Mike 巧妙地描述了我最近观察到的一个问题,即“幻觉”经常被误用为模型犯错的任何时候:
“幻觉”一词在法学硕士(LLM)的论述中几乎变得毫无价值。它最初描述的是一种非常怪异、几乎非人类的行为,即法学硕士会凭空捏造看似不存在的东西,并引用任何已知的原始资料或从任何已知资料推断出的论点。幻觉是指凭空捏造的东西。后来,人们开始将任何错误或不完美的总结都称为幻觉,使得该术语变得毫无价值。
在这个例子中,最初的错误答案并非幻觉:它们正确地概括了包含错误信息的在线内容。接下来的技巧是鼓励模型进一步探索,使用如下“排序提示”:
- 关于我发布内容的事实、误解和炒作
- 支持和反对我所发表的主张的证据是什么
- 查看有关此问题的最新信息,总结它如何改变分析(如果有的话),并提供最新信息的链接
我很欣赏这个结尾的脚注:
平台是否应该提供更多功能来推动用户进行这种迭代?是的,应该。让人们进行迭代调查,而不是与法学硕士争论,将是摆脱聊天机器人模式造成的混乱的良好第一步。