Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

新兴的语言模型类型及其重要性

Posted on 2022-04-28

理解和生成文本的人工智能系统(称为语言模型)是企业中的热门新事物。最近的一项调查发现,60% 的技术领导者表示,他们在人工智能语言技术上的预算在 2020 年至少增加了 10%,而 33% 的人表示增加了 30%。

但并非所有语言模型都是平等的。有几种类型正在成为主导,包括大型通用模型,如 OpenAI 的 GPT-3 和针对特定任务进行微调的模型(想想回答 IT 桌面问题)。在边缘存在第三类模型——一种在尺寸上趋于高度压缩且功能有限的模型,专门设计用于在物联网设备和工作站上运行。

这些不同的方法在优势、缺点和要求方面存在重大差异——以下是它们的比较方式,以及未来一两年内您可以期待在哪里部署它们。

大型语言模型

一般来说,大型语言模型的大小为数十 GB,并在大量文本数据上进行训练,有时甚至达到 PB 级。就参数计数而言,它们也是最大的模型之一,其中“参数”是指模型在学习时可以独立更改的值。参数是从历史训练数据中学习的模型部分,本质上定义了模型在问题上的技能,例如生成文本。

“大型模型用于零样本场景或少样本场景,其中很少有领域[定制] 训练数据可用,并且通常可以根据一些提示生成一些东西,” Fangzheng Xu 博士说。卡内基梅隆大学专门研究自然语言处理的学生通过电子邮件告诉 TechCrunch。在机器学习中,“few-shot”是指用最少的数据训练模型的做法,而“zero-shot”意味着模型可以学会识别它在训练期间没有明确看到的东西。

“一个单一的大型模型可能会在几乎没有训练数据的情况下实现许多下游任务,”徐继续说道。

在过去几年中,随着研究人员开发更新和更大的架构,大型语言模型模型的使用急剧增长。 2020 年 6 月,人工智能初创公司 OpenAI 发布了 GPT-3,这是一个 1750 亿参数的模型,可以在包含指令的简短提示下生成文本甚至代码。开放研究小组 EleutherAI 随后推出了 GPT-J,这是一个更小(60 亿参数)但功能强大的语言模型,可以在语言之间进行翻译、撰写博客文章、完成代码等等。最近,微软和英伟达开源了一个名为 Megatron-Turing Natural Language Generation (MT-NLG) 的模型,这是迄今为止开发的最大的阅读理解和自然语言推理模型之一,参数为 5300 亿。

加州大学洛杉矶分校的计算社会科学家 Bernard Koch 告诉 TechCrunch, “这些大型语言模型仍然如此出色的一个原因是单一模型可以用于任务”,包括问答、文档摘要、文本生成、句子完成、翻译等。通过电子邮件。 “第二个原因是因为它们的性能会随着您向模型中添加更多参数并添加更多数据而不断扩展……非常大的预训练语言模型之所以引人注目的第三个原因是,它们似乎能够在仅给出一个少数有标签的例子。”

包括 Cohere 和 AI21 Labs 在内的初创公司也通过 API 提供类似于 GPT-3 的模型。其他公司,尤其是像谷歌这样的科技巨头,已经选择将他们在内部开发的大型语言模型保密。例如,谷歌最近详细介绍了一个名为 PaLM 的 5400 亿参数模型(但拒绝发布),该公司声称该模型在语言任务中实现了最先进的性能。

大型语言模型,无论是否开源,都具有高昂的开发成本。 AI21 Labs 2020 年的一项研究显示,开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元。推理——实际上是运行经过训练的模型——是另一个消耗。一位消息人士估计,在单个 AWS 实例 ( p3dn.24xlarge ) 上运行 GPT-3 的成本每年至少为 87,000 美元。

“大型模型将变得更大、更强大、更通用、更多模式并且训练成本更低。只有大型科技公司和资金雄厚的初创公司才能玩这个游戏,” AI2 Incubator的技术总监 Vu Ha 通过电子邮件告诉 TechCrunch。 “大型模型非常适合原型设计、构建新颖的概念验证和评估技术可行性。由于成本,它们很少是实际部署的正确选择。如果使用 GPT-3,定期处理推文、Slack 消息、电子邮件等的应用程序将变得成本过高。”

大型语言模型将继续成为云服务和 API 的标准,其中多功能性和企业访问比延迟更重要。但是,尽管最近进行了架构创新,但这些类型的语言模型对于大多数组织来说仍然是不切实际的,无论是学术界、公共部门还是私营部门。

微调的语言模型

微调模型通常比它们的大型语言模型对应物要小。示例包括 OpenAI 的 Codex,它是 GPT-3 的直接后代,针对编程任务进行了微调。尽管仍包含数十亿个参数,但 Codex 比 OpenAI 更小,而且更擅长生成和完成计算机代码字符串。

微调可以提高模型执行任务的能力,例如回答问题或生成蛋白质序列(如 Salesforce 的ProGen的情况)。但它也可以加强模型对某些主题的理解,比如临床研究。

“微调……模型适用于具有大量训练数据的成熟任务,”徐说。 “示例包括机器翻译、问答、命名实体识别、实体链接 [和] 信息检索。”

优势还不止于此。由于微调模型源自现有语言模型,微调模型几乎不需要太多时间(或计算)来训练或运行。 (像上面提到的那些更大的模型可能需要几周时间,或者需要更多的计算能力才能在几天内进行训练。)它们也不需要像大型语言模型那样多的数据。 GPT-3 在 45 TB 的文本上进行了训练,而 Codex 则在 159 GB 上进行了训练。

微调已应用于许多领域,但最近的一个特别强大的例子是 OpenAI 的 InstructGPT。 OpenAI 使用一种名为“从人类反馈中强化学习”的技术,收集了一组人类编写的关于提交给 OpenAI API 的提示的演示数据集,以及一组人类数据标签人员编写的提示。他们利用这些数据集创建了 GPT-3 的微调分支——除了是 GPT-3 的百分之一之外——显然不太可能生成有问题的文本,同时与用户的意图密切相关。

在另一个展示微调的力量的过程中,谷歌研究人员在 2 月份发表了一项研究,声称远小于 GPT-3 的模型——微调语言网络 (FLAN)——在具有挑战性的基准的数量。 FLAN 拥有 1370 亿个参数,在研究人员测试的 25 项任务中,有 19 项的表现优于 GPT-3,甚至在 10 项任务中的表现也超过了 GPT-3。

“我认为微调可能是目前行业中使用最广泛的方法,我认为短期内不会改变。目前,对较小的语言模型进行微调可以让用户更多地控制使用他们自己的特定领域数据来解决他们的专业问题,”科赫说。 “公司没有分发用户可以自行微调的 [超大型语言] 模型,而是通过 API 提示将小样本学习商业化,您可以在其中为模型提供简短的提示和示例。”

边缘语言模型

边缘模型,有目的地缩小尺寸,可以采用微调模型的形式——但并非总是如此。有时,他们会在小型数据集上从头开始训练,以满足特定的硬件限制(例如,电话或本地 Web 服务器硬件)。无论如何,边缘模型——虽然在某些方面受到限制——提供了许多大型语言模型无法比拟的好处。

成本是一个主要因素。使用离线和在设备上运行的边缘模型,无需支付任何云使用费。 (即使经过微调的模型通常也太大而无法在本地机器上运行;MT-NLG 可能需要一分钟以上才能在桌面处理器上生成文本。)分析数百万条推文之类的任务可能会在流行的云计算上花费数千美元基于模型。

理论上,边缘模型还提供比互联网绑定模型更大的隐私,因为它们不需要在云中传输或分析数据。它们的速度也更快——这是翻译等应用程序的关键优势。谷歌翻译等应用依赖边缘模型来提供离线翻译。

“边缘计算可能会部署在需要即时反馈的环境中……总的来说,我认为这些场景是人类与人工智能或机器人或类似自动驾驶汽车阅读路标的对话交互,”科赫说。 “作为一个假设的例子,Nvidia 有一个演示,其中边缘聊天机器人与快餐店的客户进行对话。最终的用例可能是自动记录电子病历。在这些情况下快速处理对话至关重要。”

当然,小型模型无法完成大型模型所能做到的一切。它们受边缘设备中的硬件约束,范围从单核处理器到配备 GPU 的片上系统。此外,一些研究表明,用于开发它们的技术可以放大不需要的特征,例如算法偏差。

“[通常]在功耗和预测能力之间进行权衡。此外,移动设备计算并没有真正以分布式高性能计算集群的速度增长,因此性能可能会越来越落后,”徐说。

展望未来

随着大型、微调和边缘语言模型随着新研究的不断发展,它们可能会在更广泛采用的道路上遇到障碍。例如,与从头开始训练模型相比,微调模型需要更少的数据,但微调仍然需要数据集。根据领域的不同——例如,从一种很少说的语言翻译——数据可能不存在。

“微调的缺点是它仍然需要大量数据。小样本学习的缺点是它的效果不如微调,而且数据科学家和机器学习工程师对模型的控制较少,因为他们只通过 API 与之交互,”科赫继续说道。 “而边缘 AI 的缺点是复杂的模型无法安装在小型设备上,因此性能比可以安装在单个桌面 GPU 上的模型更差——更不用说分布在数万个 GPU 上的基于云的大型语言模型了。”

徐指出,所有语言模型,无论大小,在某些重要方面仍然没有得到充分研究。她希望诸如可解释性和可解释性之类的领域——旨在了解模型的工作原理和原因,并将这些信息暴露给用户——在未来得到更多的关注和投资,特别是在医学等“高风险”领域。

“出处确实是这些模型应该具备的重要下一步,”徐说。 “未来,将会有越来越多的高效微调技术……以适应对整个更大模型进行微调的成本不断增加。边缘模型将继续发挥重要作用,因为模型越大,需要越多的研究和开发来提取或压缩模型以适应边缘设备。”

原文: https://techcrunch.com/2022/04/28/the-emerging-types-of-language-models-and-why-they-matter/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Lou Plummer
  • Luke Wroblewski
  • Matt Stoller
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme