当涉及到大型语言模型时，您应该构建还是购买？

Tanmay Chopra贡献者

Tanmay Chopra 在 AI 搜索初创公司Neeva从事机器学习工作，在那里他研究大大小小的语言模型。此前，他负责监督全球机器学习系统的开发，以打击 TikTok 上的暴力和极端主义。

去年夏天只能用“AI之夏”来形容，尤其是大型语言模型的爆发。我们看到在大量数据集上训练的巨大神经网络可以完成令人印象深刻的任务，其中最著名的莫过于 OpenAI 的 GPT-3 及其更新的、大肆宣传的后代 ChatGPT。

各行各业各种规模和规模的公司都在争先恐后地研究如何整合这项新技术并从中提取价值。但 OpenAI 的商业模式与它对自然语言处理的贡献一样具有变革性。与几乎所有以前发布的旗舰模型不同，这个模型没有开源预训练权重——也就是说，机器学习团队不能简单地下载模型并根据自己的用例对其进行微调。

相反，他们必须要么付费按原样使用它们，要么付费微调模型，然后支付按原样使用率四倍的费用来使用它。当然，企业仍然可以选择其他同行的开源模式。

这引发了一个古老的企业——但对 ML 来说是全新的——问题：购买或构建这项技术更好吗？

重要的是要注意，这个问题没有放之四海而皆准的答案。我并不是要提供一个包罗万象的答案。我的意思是强调这两条路线的优缺点，并提供一个框架，可以帮助公司评估什么对他们有用，同时还提供一些中间路径，试图包括两个世界的组成部分。

购买：快速，但有明显的陷阱

虽然从长远来看，建设看起来很有吸引力，但它需要对风险有强烈偏好的领导层，以及支持这种偏好的雄厚资金。

让我们从购买开始吧。有大量模型即服务提供商提供自定义模型作为 API，按请求收费。这种方法快速、可靠，几乎不需要前期资本支出。实际上，这种方法降低了机器学习项目的风险，特别是对于进入该领域的公司而言，并且需要软件工程师以外的有限内部专业知识。

项目可以在不需要有经验的机器学习人员的情况下启动，并且模型的结果可以合理地预测，因为购买的 ML 组件有一系列关于输出的保证。

不幸的是，这种方法有非常明显的缺陷，其中最主要的是产品防御能力有限。如果您购买的模型任何人都可以购买并将其集成到您的系统中，那么假设您的竞争对手可以同样快速可靠地实现产品平价并不牵强。除非您可以通过不可复制的数据收集技术创建上游护城河或通过集成创建下游护城河，否则情况会如此。

更重要的是，对于高吞吐量解决方案，这种方法在规模上可能会非常昂贵。就上下文而言，OpenAI 的 DaVinci 成本为每千个代币 0.02 美元。保守地假设每个请求 250 个令牌和类似大小的响应，您为每个请求支付 0.01 美元。对于每天有 100,000 个请求的产品，您每年需要支付超过 300,000 美元。显然，文本密集型应用程序（试图生成文章或参与聊天）会导致更高的成本。

您还必须考虑与此方法相关的有限灵活性：您要么按原样使用模型，要么支付更多费用来微调它们。值得记住的是，后一种方法将涉及与供应商的不言而喻的“锁定”期，因为经过微调的模型将由他们而非您的数字保管。

建筑：灵活且防御性强，但成本高且风险大

另一方面，构建自己的技术可以让您规避其中的一些挑战。

当涉及到大型语言模型时，您应该构建还是购买？作者： Ram Iyer ，最初发表于TechCrunch

原文： https://techcrunch.com/2023/01/25/when-it-comes-to-large-language-models-should-you-build-or-buy/