我认识的几乎每一家公司都在寻找一种从大型语言模型中受益的方法。即使他们的高管没有看到太多的适用性,他们的投资者也可能会看到,所以他们紧张地盯着空白页,试图想出一个想法。为法学硕士以某种方式提高内部效率提出论点很简单,但要描述法学硕士将使您的产品对客户更有用的可信方式要困难得多。
去年,我一直在相当直接地研究法学硕士对现有产品的有意义的适用性,并想写一些半杂乱的笔记。这些注释没有特定的顺序,其目标受众是构建产品的行业人士。
重建你的心理模型
业内许多人仍在为法学硕士构建心智模型,这导致了关于法学硕士可以做什么以及我们应该如何使用它们的许多推理错误。我发现许多人对法学硕士有两种无益的思维模式:
- 法学硕士很神奇:任何人类能做的事情,法学硕士都可以做得差不多,而且速度要快得多
- 法学硕士与强化学习相同:当前的幻觉和准确性问题是由小数据集引起的。准确性问题将通过更大的训练集来解决,我们可以依靠置信度分数来减少
为了避免陷入这些心理模型的错误,我建议围绕法学硕士建立有用的心理模型的这些支柱:
- 法学硕士可以预测对任何提示的合理反应– 法学硕士将有信心对您编写的任何文本提示提供响应,并将越来越多地提供对文本以及其他形式的媒体(如图像或视频)的响应
- 你无法知道给定的答案是否准确——法学硕士会产生意想不到的结果,称为幻觉,你无法具体知道它们何时是错误的。对于 LLM 的特定答案的推理,没有置信度分数
- 您可以使用评估来估计模型和给定提示集的准确性– 您可以使用评估– 针对一组已知的提示运行 LLM 并评估这些提示 – 评估 LLM 在给定场景中表现良好的可能性
- 您通常可以通过使用更大的模型来提高准确性,但它会花费更多并且延迟更高– 例如,GPT 4 是比 GPT 3.5 更大的模型,并且通常提供更高质量的响应。然而,它的成本明显更高(大约贵 20 倍),而且速度明显更慢(慢 2-5 倍)。然而,每个价位的质量、成本和延迟都在改善。您应该预期在给定成本、延迟或质量点下的同比性能将在未来五年内显着改善(例如,您应该预期在 12-24 个月内以 GPT 3.5 的价格和延迟获得 GPT 4 质量)
- 随着训练语料库规模的增长,模型通常会变得更加准确——随着数据集的增长,强化学习的准确性往往会提高可预测性。这通常是正确的,但对于法学硕士来说就不太可预测了。小模型通常表现不如大模型。具有更高质量数据的大型模型通常优于小型模型。用特定数据补充大型通用模型称为“微调”,目前尚不清楚微调何时会优于使用较大模型。
- 即使是最快的法学硕士也没有那么快——即使是快速的法学硕士也可能需要 10 秒以上才能提供合理大小的响应。如果您需要执行提示和响应的多次迭代,或者使用更大的模型,可能需要一两分钟才能完成。这些会变得更快,但现在并不快
- 即使是最昂贵的法学硕士对于 B2B 使用来说也不是那么昂贵。即使是最便宜的法学硕士对于消费者的使用来说也不是那么便宜——因为定价是由使用量决定的,对于付费使用量较小的 B2B 企业来说,这是一项很容易证明其合理性的技术。相反,要弄清楚如何在不冒利润大幅缩水的风险的情况下为消费者业务中大量使用 LLM 付费是非常具有挑战性的。
这些并不完美,但希望它们能够为推理在将法学硕士应用于您的产品时什么有效或无效提供良好的基础。有了这个基础,现在是时候深入研究一些更具体的子主题了。
改进工作流程
大多数现代软件的工作流程并不是为了最大化法学硕士的利益而设计的。这并不奇怪——它们是在法学硕士变得普遍之前建立的——但它确实需要对工作流程设计进行一些重新思考。
为了说明这一点,让我们考虑一下抵押贷款提供商的软件:
- 用户创建帐户
- 产品要求用户填写一堆数据,以了解用户想要的抵押贷款类型以及用户是否有资格获得此类抵押贷款
- 产品要求用户提供文件来支持用户刚刚提供的数据,可能是一些最近的薪水、银行账户余额等
- 内部团队根据用户的文书工作验证用户的数据
在该工作流程中,法学硕士仍然可以为企业提供重大价值,因为您可以提高验证与用户提供的信息相匹配的文书工作的效率,但除了可能更快地验证其应用程序之外,用户本身不会看到太多好处。
但是,您可以调整工作流程以使其更有价值:
- 用户创建帐户
- 产品要求用户提供文件
- 产品使用 LLM 从文书工作中提取价值
- 用户验证提取的数据是否正确,并进行一些调整
- 内部团队审查用户的调整,以及某种规则引擎引发的任何高风险问题
这两种产品的技术复杂性在功能上是相当的,但用户体验却截然不同。内部团队的体验也得到了改善。我相信,许多现有产品会发现,只有重新思考其工作流程,才能从法学硕士中显着提高用户体验。
检索增强生成 (RAG)
模型有一个最大的文本“标记窗口”,他们将在给定的提示中考虑这些文本。令牌窗口的最大尺寸正在迅速扩大,但是较大的令牌窗口评估速度较慢且评估成本更高,因此即使扩大令牌窗口也不能解决整个问题。
在固定标记窗口内导航大型数据集的一种解决方案是检索增强生成(RAG)。举一个具体的例子,您可能想要创建一个约会应用程序,根据个人对以下问题的自由形式答案来匹配个人:“您与书籍、电视节目、电影和音乐的关系是什么?它发生了怎样的变化?”随着时间的推移?”没有令牌窗口足够大,无法在提示中包含约会应用程序数据库中的每个用户,但您可以通过位置过滤找到二十个看似合理的匹配用户,然后包含这二十个用户的自由格式答案,并在其中进行匹配。
这很有意义,并且将简单的算法(获取响应的合理组成部分)与法学硕士(LLM)的两阶段组合来过滤合理的响应并将其打包为实际的响应,效果非常好。
我看到人们遇到麻烦的地方是试图将 RAG 视为搜索问题的解决方案,而不是认识到 RAG 需要有用的搜索作为其实现的一部分。有效的 RAG 方法取决于高质量的检索和过滤机制,以便在不平凡的规模上发挥良好作用。例如,通过 RAG 的高级视图,有些人可能认为他们可以用 RAG 替换他们的搜索技术(例如 Elasticsearch),但只有当您的数据集非常小并且您可以容忍更高的响应延迟时,这才是正确的。
从我的角度来看,挑战在于大多数偷工减料的解决方案看起来都在处理小型数据集,同时让您假装搜索相关性之类的事情并不重要,而实际上,当您超越这些数据集时,它们会显着影响响应的质量原型设计。这对原型如何转化为生产能力产生了错误的期望,并产生了所有可预测的后果:低估时间表、糟糕的生产行为/性能等。
创新率
模型性能,本质上是以美元或毫秒为单位的给定预算的响应质量,将继续提高,但如果没有法学硕士应用或处理方面的重大技术突破,它不会以这种速度继续提高。我预计这些突破会发生,但在最初几年之后发生的频率会降低,并且从那时起会很慢。很难确定我们处于这个周期的哪个位置,因为仍然有大量资本流入这个领域。
除了技术突破之外,推动创新的另一个方面是建造越来越大的模型。目前尚不清楚今天的限制因素是否是 Nvidia GPU 的可用性、用于训练模型的更大数据集、训练新模型的资本、或者表明训练更大模型的未来现金流贴现无法满足合理投资回收期的财务模型。我的假设是,随着时间的推移,所有这些都已经或将会成为法学硕士创新的限制性约束,并且各种竞争对手将最适合取得进展,具体取决于哪个约束最相关。 (这里有很多令人着迷的边缘场景值得思考,例如,想象一下这样一种场景:美国政府废除版权法,允许在更大的数据集上进行培训,因为它担心法学硕士培训竞赛会输给不尊重美国版权法的国家。)
可以肯定地假设模型性能将继续提高。未来几年性能可能会显着提高。我发现相对不太可能假设我们会看到摩尔定律的情景,即法学硕士在几十年内继续大幅提高,但很多事情很容易证明我错了。例如,在某个时候,核聚变将成为主流,并从根本上改变我们对能源利用的看法,从而真正改写世界结构,而法学硕士培训成本可能是其中的一部分。
人在环 (HITL)
因为您不能依赖法学硕士提供正确的答案,并且您可以评估任何给定答案的置信度分数,所以您必须接受潜在的不准确之处(这在许多情况下是有道理的,人类有时也会出错)或保留人类参与-the-Loop (HITL) 来验证响应。
正如工作流程部分中所讨论的,许多公司已经有人执行验证工作,他们现在可以监督 LLM 响应,而不是自己生成响应。在其他场景中,可以调整产品的工作流程以依赖外部用户充当 HITL。我怀疑大多数产品将依赖这两种技术以及启发式方法来确定何时需要内部审查。
幻觉和法律责任
如前所述,法学硕士经常会自信地做出错误的回答。 HITL 是防止对错误响应采取行动的设计原则。这是因为它将责任(特别是法律责任)从法学硕士本身和今天的特定人身上转移开。例如,如果您使用 Github Copilot 生成一些导致安全漏洞的代码,则您对该安全漏洞负责,而不是 Github Copilot。如今,法学硕士的每一次大规模采用都是以一种将响应责任转移给用户的模式进行的。
许多早期创业者都梦想着一个有着截然不同循环的世界,在这个世界中,LLM 无需 HITL,但我认为这仅适用于可以转移法律责任的情况(例如 Github Copilot 的例子),或者没有 HITL。首先是法律责任(例如根据他们的个人资料图片生成一首有趣的诗)。
“零到一”与“一到N”
人们强烈希望看到法学硕士取代软件工程师,或者软件工程师担任监督角色而不是编写软件。例如,一位企业家想要构建 Reddit 的副本,并使用法学硕士来实现该实现。有足够的证据表明,今天您可以假设,凭借法学硕士和一些调试技能,您可以在几周内将新产品创意从零变为一。
然而,大多数企业家对操作和发展拥有大量用户的软件缺乏深刻的直觉。一些例子:
- 在更改 UI 后保持用户的参与度需要积极、深思熟虑的工作
- 确保用户数据安全并满足各种隐私合规义务
- 提供满足 SOC2 要求的控制措施并提供维护这些控制措施的可审计证据
- 迁移其中包含客户数据的数据库架构以支持一组新列
- 将查询模式逐步缩减为一组特定的允许模式,这些模式可以在更高的规模上有效执行
所有这些都是扩展产品的简单、基本组成部分(例如从“一个到N”),而法学硕士根本无法有效地执行这些产品,并且我怀疑我们是否会看到特别可靠的法学硕士-基于熟练的人类智能的替代。不过,当我们看到人们试图突破基于法学硕士的自动化的界限以推迟需要聘请专业知识的项目的开始时,观察会很有趣。
版权法
如今,版权影响还非常不清楚,在可预见的未来也将如此。今天使用法学硕士所做的所有工作都必须考虑到不同的法律结果。我最好的猜测是,我们将看到一个关于法学硕士生成的内容是否受版权保护的法律割据的时代,从长远来看,法学硕士将被视为与任何其他基本技术组件相同,例如运行拼写检查器不会撤销您对拼写检查文档的版权。你可以提出各种很好的论据,为什么这种观点对数据接受过训练的版权所有者不公平,但从长远来看,我认为任何其他解释都是行不通的。
数据处理协议
如今与法学硕士合作的一个小但令人着迷的现实是,许多客户对法学硕士提供商(OpenAI、Anthropic 等)很敏感,因为这些提供商是相对较新的公司,构建相对较新的事物,几乎没有法律先例来消除它们的风险。这意味着将它们添加到您的数据处理协议 (DPA) 中可能会产生一些摩擦。解决这种摩擦的最明显方法是依靠现有云供应商(AWS、Azure、GCP 等)提供的 LLM 功能。
供应商可用性
我曾经认为这非常重要,但我的感觉是,LLM 托管本质上已经等同于其他云服务(例如,您可以通过 AWS 获得 Anthropic,或者通过 Azure 获得 OpenAI),并且很少有公司会从花费太多时间中受益担心LLM的可用性。我确实认为,通过云提供商(精通可扩展性的公司)直接访问法学硕士也可能是这里的最佳选择。
有很多人比我花更多的时间深入思考法学硕士——例如去读一些西蒙·威利森的书——但希望这里的笔记是有用的。如果人们不同意这些观点,我们很想讨论一下。
原文: https://lethain.com/mental-model-for-how-to-use-llms-in-products/