经过一年多的规划和培训,一个志愿者领导的项目已经产生了一个开源语言模型,他们声称它与 OpenAI 的GPT-3一样强大,但免费开放给任何人使用(如果他们有计算能力的话) .该模型被称为 Bloom,与用于创建它的代码和数据集一起以开源形式提供。总部位于布鲁克林的 AI 初创公司Hugging Face发布了一款免费的网络应用程序,任何人无需下载即可试用 Bloom。
Bloom 是 BigScience 的创意,BigScience 是一个由社区支持的国际项目,其目标是让大型自然语言模型广泛用于研究。 大型语言模型,或简称为“LLM”,可以翻译、总结和编写具有人类细微差别的文本——或多或少。 (请参阅 GPT-3。)但它们的创建历来成本高昂,使研究人员无法接触到它们,并且牢牢掌握在 Meta、Google 和 Microsoft 等大型科技公司的手中。
这种情况终于改变了,部分归功于 BigScience 的努力。该组织的 1,000 多名志愿者研究人员——在伦理学家、哲学家、法律学者和来自初创公司和大型科技公司的工程师的支持下——花了几个月的时间致力于 Bloom,它在规模上与 OpenAI 和 Alphabet 的 DeepMind 等公司制造的 LLM 相媲美。作为跨多种语言工作的最大开源模型之一,Bloom 旨在应用于一系列研究应用,例如从历史文本中提取信息。
“ Bloom 能够以 46 种自然语言和方言以及 13 种编程语言生成文本,”在发布前与 TechCrunch 分享的一篇博文中写道。 “虽然它从未接受过任何这些特定任务的培训,但 Bloom 可以被要求生成文本的摘要或翻译,从指令中输出代码,并按照提示执行原始任务,例如编写食谱、从新闻文章中提取信息或用一个新定义的发明词组成句子……随着工作室继续在 Bloom 上进行实验和推进,Bloom 的表现将继续提高。”
BigScience 的支持者还希望 Bloom 能够激发新的调查,以解决困扰所有 LLM 的问题,包括偏见和毒性。法学硕士倾向于散布谎言并表现出对宗教、性别、种族和残疾人的偏见。他们还与写作的基本原则作斗争,经常改变谈话的主题而没有继续,无休止地重复——甚至是自相矛盾——自己。
卑微的开始
BigScience 起源于多年前 Hugging Face 首席科学官 Thomas Wolf、 GENCI 的Stéphane Requena 和IDRIS的 Pierre-François Lavallée 之间的讨论。创始人设想创建软件、数据集、法学硕士和工具来探索人工智能的社会影响,直到最近几年才受到研究界越来越多的关注。
很快,指导委员会成立,为来自 60 多个国家和 250 个机构的 BigScience 成员提供科学和一般建议、设计协作任务并组织研讨会、黑客马拉松和公共活动。不同的工作组负责解决数据治理等挑战,证明数学和档案策略的定理,以及隐私和知情同意和其他法律问题。
Bloom是他们工作的总和。它使用价值 700 万美元的公共资助(通过赠款)在位于法国巴黎附近的 Jean Zay 超级计算机上进行训练,该超级计算机是世界上最强大的机器之一。
学术界正在就人工智能培训的碳影响进行 激烈的讨论;数据中心并不是特别环保。但 BigScience 表示,Jean Zay 凭借其独特的冷却系统和核动力源,能够以相当于巴黎到纽约航班的碳足迹训练 Bloom。
与所有语言模型一样,Bloom 本质上是一种预测单词的统计工具。通过从 1.6 TB 的训练数据集中获取大量示例,Bloom 根据模式(包括周围文本的语义上下文)了解单词出现的可能性有多大。例如,给定一封以“期待……”片段结尾的典型电子邮件,布鲁姆可能会以“……回听”来完成它。
BigScience 工作组的一个目标是收集足够有代表性的数据来训练 Bloom。由于公共数据源中的系统性偏差,非英语法学硕士传统上表现不如英语语言的同行。利用书籍、学术出版物、广播转录、播客和网站,用于训练 Bloom 的 3410 亿字数据集旨在编码跨语言的不同文化背景,包括斯瓦希里语、加泰罗尼亚语、孟加拉语和越南语。
BigScience 小组从 500 个来源中精心挑选了近三分之二的数据集,征求社区团体的建议,包括非洲自然语言处理社区 Masakhane、LatinX in AI 和机器学习东京。他们针对隐私进行了编辑并针对质量进行了过滤,例如试图减少色情网站的过度代表,这些网站往往包含性别歧视的关联。
Bloom 并非完全没有偏见——没有 LLM。但希望是,通过保持训练数据的透明度,研究人员将更容易找到 Bloom 预测和决策的根源。
体积大
Bloom 有 1760 亿个参数,大致相当于 GPT-3 的大小。机器学习中的参数是从训练数据中学习到的 LLM 的一部分,并且往往与模型在生成文本等任务上的有效性相关。
一般来说,更高参数的模型需要更多的计算能力来训练。 AI21 Labs 2020 年的一项研究显示,开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元; Bloom 在 384 个 Nvidia A100 GPU 上训练了三个月。这一事实使得社区很难使用大型、最先进的语言模型,如微软和英伟达的 Megatron-Turing 自然语言生成 (MT-NLG),它有 5300 亿个参数。
BigScience 声称,研究人员将能够以低于每小时 40 美元的价格在云提供商上使用 Bloom。但为了消除这种访问障碍,该组织计划发布更小、硬件密集度更低的 Bloom 版本,并正在开发一个分布式系统,允许实验室在其服务器之间共享模型。 API 也在开发中。
Bloom 加入了一个新兴的开源生态系统,功能强大的 LLM 具有广泛的商业和研究用途。 2 月,开放式 AI 研究小组 EleutherAI 发布了 GPT-NeoX-20B,在当时的多个基准测试中,它的表现优于其他公共语言模型。几个月后,Meta 开源了 OPT-175B,该公司声称这是第一个提供给 AI 社区的 1750 亿参数的语言模型。
它们已经得到了很好的利用——企业已经围绕 EleutherAI 的模型涌现。但一些研究人员担心滥用。在马里兰大学,研究人员发现,法学硕士有可能产生足以欺骗专家的虚假新闻和网络安全报告。 Meta 研究人员共同撰写的另一篇论文探讨了 LLM 可能带来的潜在危害,这些 LLM 提供的建议不佳,尤其是医学或心理预测。
许多通过 API 提供 LLM 访问权限的公司(例如 OpenAI)应用过滤器来清除有问题的文本。但是开源模型显然没有这样的保护。
认识到滥用的可能性,Bloom 附带了概述其功能和限制的文档。使用它需要同意法律许可,承诺研究人员不会将该模型用于恶意目的。 BigScience 计划监控模型的应用情况,并根据需要调整许可和文档。
“我们计划添加更多语言,使模型更小,以便在相同性能水平下更易于使用,我们将支持社区努力扩展它,”博客文章继续说道。 “Bloom 是一个活生生的模型家族,会不断成长,而不是一劳永逸的模型。”