经过一年的酝酿，BigScience 的 AI 语言模型终于可用

经过一年多的规划和培训，一个志愿者领导的项目已经产生了一个开源语言模型，他们声称它与 OpenAI 的GPT-3一样强大，但免费开放给任何人使用（如果他们有计算能力的话） .该模型被称为 Bloom，与用于创建它的代码和数据集一起以开源形式提供。总部位于布鲁克林的 AI 初创公司Hugging Face发布了一款免费的网络应用程序，任何人无需下载即可试用 Bloom。

Bloom 是 BigScience 的创意，BigScience 是一个由社区支持的国际项目，其目标是让大型自然语言模型广泛用于研究。大型语言模型，或简称为“LLM”，可以翻译、总结和编写具有人类细微差别的文本——或多或少。（请参阅 GPT-3。）但它们的创建历来成本高昂，使研究人员无法接触到它们，并且牢牢掌握在 Meta、Google 和 Microsoft 等大型科技公司的手中。

这种情况终于改变了，部分归功于 BigScience 的努力。该组织的 1,000 多名志愿者研究人员——在伦理学家、哲学家、法律学者和来自初创公司和大型科技公司的工程师的支持下——花了几个月的时间致力于 Bloom，它在规模上与 OpenAI 和 Alphabet 的 DeepMind 等公司制造的 LLM 相媲美。作为跨多种语言工作的最大开源模型之一，Bloom 旨在应用于一系列研究应用，例如从历史文本中提取信息。

“ Bloom 能够以 46 种自然语言和方言以及 13 种编程语言生成文本，”在发布前与 TechCrunch 分享的一篇博文中写道。 “虽然它从未接受过任何这些特定任务的培训，但 Bloom 可以被要求生成文本的摘要或翻译，从指令中输出代码，并按照提示执行原始任务，例如编写食谱、从新闻文章中提取信息或用一个新定义的发明词组成句子……随着工作室继续在 Bloom 上进行实验和推进，Bloom 的表现将继续提高。”

BigScience 的支持者还希望 Bloom 能够激发新的调查，以解决困扰所有 LLM 的问题，包括偏见和毒性。法学硕士倾向于散布谎言并表现出对宗教、性别、种族和残疾人的偏见。他们还与写作的基本原则作斗争，经常改变谈话的主题而没有继续，无休止地重复——甚至是自相矛盾——自己。

“[Bloom] 展示了开源和开放科学的持续力量，即使对于昂贵的大型基础模型也是如此，”You.com 首席执行官兼 Salesforce 前首席科学家 Richard Socher 通过电子邮件告诉 TechCrunch。 Socher 没有参与 BigScience。 “这也表明，在人工智能领域，没有哪个组织能长期占据主要优势。一旦一个组织表明某件事是可行的，同样的能力将在其他地方出现 6 到 12 个月后。”

卑微的开始

BigScience 起源于多年前 Hugging Face 首席科学官 Thomas Wolf、 GENCI 的Stéphane Requena 和IDRIS的 Pierre-François Lavallée 之间的讨论。创始人设想创建软件、数据集、法学硕士和工具来探索人工智能的社会影响，直到最近几年才受到研究界越来越多的关注。

很快，指导委员会成立，为来自 60 多个国家和 250 个机构的 BigScience 成员提供科学和一般建议、设计协作任务并组织研讨会、黑客马拉松和公共活动。不同的工作组负责解决数据治理等挑战，证明数学和档案策略的定理，以及隐私和知情同意和其他法律问题。

Bloom是他们工作的总和。它使用价值 700 万美元的公共资助（通过赠款）在位于法国巴黎附近的 Jean Zay 超级计算机上进行训练，该超级计算机是世界上最强大的机器之一。

学术界正在就人工智能培训的碳影响进行激烈的讨论；数据中心并不是特别环保。但 BigScience 表示，Jean Zay 凭借其独特的冷却系统和核动力源，能够以相当于巴黎到纽约航班的碳足迹训练 Bloom。

与所有语言模型一样，Bloom 本质上是一种预测单词的统计工具。通过从 1.6 TB 的训练数据集中获取大量示例，Bloom 根据模式（包括周围文本的语义上下文）了解单词出现的可能性有多大。例如，给定一封以“期待……”片段结尾的典型电子邮件，布鲁姆可能会以“……回听”来完成它。

BigScience 工作组的一个目标是收集足够有代表性的数据来训练 Bloom。由于公共数据源中的系统性偏差，非英语法学硕士传统上表现不如英语语言的同行。利用书籍、学术出版物、广播转录、播客和网站，用于训练 Bloom 的 3410 亿字数据集旨在编码跨语言的不同文化背景，包括斯瓦希里语、加泰罗尼亚语、孟加拉语和越南语。

BigScience 小组从 500 个来源中精心挑选了近三分之二的数据集，征求社区团体的建议，包括非洲自然语言处理社区 Masakhane、LatinX in AI 和机器学习东京。他们针对隐私进行了编辑并针对质量进行了过滤，例如试图减少色情网站的过度代表，这些网站往往包含性别歧视的关联。

Bloom 并非完全没有偏见——没有 LLM。但希望是，通过保持训练数据的透明度，研究人员将更容易找到 Bloom 预测和决策的根源。

体积大

Bloom 有 1760 亿个参数，大致相当于 GPT-3 的大小。机器学习中的参数是从训练数据中学习到的 LLM 的一部分，并且往往与模型在生成文本等任务上的有效性相关。

一般来说，更高参数的模型需要更多的计算能力来训练。 AI21 Labs 2020 年的一项研究显示，开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元； Bloom 在 384 个 Nvidia A100 GPU 上训练了三个月。这一事实使得社区很难使用大型、最先进的语言模型，如微软和英伟达的 Megatron-Turing 自然语言生成 (MT-NLG)，它有 5300 亿个参数。

BigScience 声称，研究人员将能够以低于每小时 40 美元的价格在云提供商上使用 Bloom。但为了消除这种访问障碍，该组织计划发布更小、硬件密集度更低的 Bloom 版本，并正在开发一个分布式系统，允许实验室在其服务器之间共享模型。 API 也在开发中。

Bloom 加入了一个新兴的开源生态系统，功能强大的 LLM 具有广泛的商业和研究用途。 2 月，开放式 AI 研究小组 EleutherAI 发布了 GPT-NeoX-20B，在当时的多个基准测试中，它的表现优于其他公共语言模型。几个月后，Meta 开源了 OPT-175B，该公司声称这是第一个提供给 AI 社区的 1750 亿参数的语言模型。

它们已经得到了很好的利用——企业已经围绕 EleutherAI 的模型涌现。但一些研究人员担心滥用。在马里兰大学，研究人员发现，法学硕士有可能产生足以欺骗专家的虚假新闻和网络安全报告。 Meta 研究人员共同撰写的另一篇论文探讨了 LLM 可能带来的潜在危害，这些 LLM 提供的建议不佳，尤其是医学或心理预测。

许多通过 API 提供 LLM 访问权限的公司（例如 OpenAI）应用过滤器来清除有问题的文本。但是开源模型显然没有这样的保护。

认识到滥用的可能性，Bloom 附带了概述其功能和限制的文档。使用它需要同意法律许可，承诺研究人员不会将该模型用于恶意目的。 BigScience 计划监控模型的应用情况，并根据需要调整许可和文档。

“我们计划添加更多语言，使模型更小，以便在相同性能水平下更易于使用，我们将支持社区努力扩展它，”博客文章继续说道。 “Bloom 是一个活生生的模型家族，会不断成长，而不是一劳永逸的模型。”

原文： https://techcrunch.com/2022/07/12/a-year-in-the-making-bigsciences-ai-language-model-is-finally-available/