与法学硕士合作：一些经验教训

与法学硕士合作的一个有趣的部分是，你会看到很多人试图与他们合作，无论大小的公司内部，都陷入了全新的问题。事实证明，很好地使用它们不仅仅是专业知识甚至兴趣的问题，而且需要忘记一些惨痛的教训。所以我想我应该记下一些观察结果。我们从最难的开始，即：

完美的可验证性并不存在

LLM 本质上是概率性的。无论您多么想要它，它所产生的结果都无法完美验证。相反，我们需要找到方法来应对偶尔会出错的事实。

这与我们之前运行的代码不同。这就是为什么使用法学硕士会如此酷，因为他们可以做不同的事情。但它能够阅读和理解措辞糟糕的自然语言问题的代价是它也可能偶尔出轨。

无论您是要求法学硕士根据上下文回答问题（例如 RAG），还是要求其编写 Python，或者要求其使用工具，都是如此。没关系，完美的可验证性并不存在。这意味着你必须添加评估框架、人机交互流程、优雅失败设计、使用法学硕士进行概率性指导而不是确定性答案，或者以上所有内容，并希望它们能抓住你关心的大部分内容，但知道事情仍然会溜走。

感谢您阅读奇怪的循环佳能！免费订阅以接收新帖子并支持我的工作。

存在帕累托边界

现在，您可以通过在方程式中添加更多法学硕士来缓解问题。然而，这也带来了法学硕士互相用中文窃窃私语增加幻觉或新形式错误的问题。这并不新鲜，香农说，“信息是不确定性的解决方案。” 20 世纪 80 年代洗衣机中香农的反馈通道和模糊逻辑控制器接受了不确定性，并在其周围包裹了控制回路。

它们看起来像软件，但行为却像人。就像人一样，你不能只是雇佣一个人然后让他们就座，你必须培训他们。并围绕它们创建系统以使输出可验证。

这意味着您需要进行验证的 LLM 调用数量以及每个 LLM 引入的错误率存在帕累托边界。实际上，为了完成手头的任务，必须学习这一点，通常是痛苦的。这是因为法学硕士并不是对每项任务都同样擅长，甚至对于我们人类看来彼此相似的任务也不是同样擅长。

这会产生不对称的信任问题，特别是因为您无法验证所有内容。它需要的是一种新的方式来思考“我们应该如何实现[X]目标”，而不是“我们如何自动化[X]流程”。

基于一些实数的前沿示例

令人恼火的是，这意味着：

尝试和错误是无可替代的

与传统软件不同，没有什么比使用人工智能更好地使用人工智能了。没有完美的软件可以在您不参与的情况下解决您的问题。这种感觉有点奇怪的原因是，虽然这对于 B2B SaaS 来说也是如此，但必须“重新配置”自己的人通常是技术专家，虽然他们抱怨，但这在某种程度上被视为做生意的代价。这不仅仅是技术专家。产品经理、设计师，甚至最终用户都需要调整他们的期望和工作流程。

我的朋友马特·克利福德说世界上不存在人工智能形状的洞。这意味着不存在简单的“人工智能槽”就能解决问题的解决方案。你必须重新调整整个组织的运作方式。那很难。这就是让中层管理人员汗流浃背、心烦意乱的事情。

顺便说一句，这也是为什么尽管世界上每家 SaaS 公司都“添加了人工智能”，但没有一家公司“获胜”的部分原因。因为当人们开始使用这项技术并围绕其独特的优点和缺点构建解决方案时，这项技术就会取得成功。

这也意味着：

发展的可预测性有限

要清楚地预测什么会起作用以及何时起作用，即使不是不可能，也是非常困难的。达到 80% 的可靠性很容易。 90% 是困难但有可能的，除此之外就是一个冒险，这取决于你在做什么，是否有数据、检查工作的系统、帮助纠正错误的技术和管理设置等等。

传统上，您可以使用软件制定计划。即使在那时，发展也因不可预测而臭名昭著。现在补充一个事实，即培训法学硕士本身是一个不可靠的过程。使用的数据组合、使用的方法、使用方法的顺序、你所培训的法学硕士所使用的支架、你的提示方式，它们都会直接影响你是否会成功。

请注意这对从事管理工作的任何人意味着什么。当然，高级管理层会更愿意迈出这一一步。年轻人会喜欢有机会尝试使用最新的技术。对于其他人来说，这需要信仰的飞跃。尝试开发事物直到它们发挥作用。如果你的工作要求你说服下面的人使用某种东西，而上面的人则认为它会完美地工作，那么你就有麻烦了。他们无法预测或计划，而且不容易。

所以：

你无法为未来而建设

这也意味着构建面向未来的技术几乎是不可能的。是的，您的一些/大部分代码将在几个月内过时。是的，新模型可能会包含您创建的一些功能。其中一些会破坏现有功能。这是一场持续不断的红皇后竞赛。界面僵化，模型混乱。

这意味着，您也无法计划多个季度。这将采用敏捷或 Scrum 或任何您想使用的方式。如果您还没有准备好快速发布版本，我所说的快速发布是指几周内发布，那么几个月内什么也不会发生。将需要大量的工作来管理环境、使其更加可靠、添加各种方式的合规性和治理。

即便如此，你的超级秘密专有数据是否有用还是很难说。最好的判断方法实际上就是尝试。

大多数情况下，确保您拥有参与长期项目的技能和人员的方法是构建许多东西。反复。直到那些建造它的人有足够的肌肉记忆来能够完成更复杂的项目。

和：

如果它有效，你的经济状况将发生巨大变化

如果您执行上述所有操作，您的 LLM 部署的经济性将比传统软件的构建方式发生巨大变化。成本被回扣。

比尔·盖茨说：“信息技术产品的美妙之处在于它们具有规模经济性：一旦完成了所有的研发，将它们提供给更多用户的能力就非常非常便宜。软件在这方面稍好一些，因为它的边际成本几乎为零。”

这意味着人们可能认为低于线成本的很多东西都变成了高于线成本。与比尔盖茨所说的软件业务不同，这里的成功将压缩利润率，特别是当杰文悖论增加了对它的需求并且日益激烈的竞争打击了边际推理利润时。

定价必须从基于座位的定价降至基于使用的定价，因为这也是成本增加的方式。但是，例如，如果可靠性阈值导致用户流失，那么它也将敲响丧钟。超出容量计划，您就会吃掉闲置硅片的折旧。因此，模型性能提升具有实物期权价值：更好的权重可以让您推迟资本支出或捕获更多流量，而无需重写堆栈。

软件吞噬世界的前提是边际成本为零。认知饮食软件会带回计量账单。蓬勃发展的公司将把计算视为 COGS，将用户体验视为护城河，将快速迭代视为生命支持。其他人都会发现“人工智能形状的洞”也可能是金钱坑：昂贵、概率性和无情的竞争。

感谢您阅读奇怪的循环佳能！免费订阅以接收新帖子并支持我的工作。

原文： https://www.strangeloopcanon.com/p/working-with-llms-a-few-lessons