Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

经过一年的酝酿,BigScience 的 AI 语言模型终于可用

Posted on 2022-07-12

经过一年多的规划和培训,一个志愿者领导的项目已经产生了一个开源语言模型,他们声称它与 OpenAI 的GPT-3一样强大,但免费开放给任何人使用(如果他们有计算能力的话) .该模型被称为 Bloom,与用于创建它的代码和数据集一起以开源形式提供。总部位于布鲁克林的 AI 初创公司Hugging Face发布了一款免费的网络应用程序,任何人无需下载即可试用 Bloom。

Bloom 是 BigScience 的创意,BigScience 是一个由社区支持的国际项目,其目标是让大型自然语言模型广泛用于研究。 大型语言模型,或简称为“LLM”,可以翻译、总结和编写具有人类细微差别的文本——或多或少。 (请参阅 GPT-3。)但它们的创建历来成本高昂,使研究人员无法接触到它们,并且牢牢掌握在 Meta、Google 和 Microsoft 等大型科技公司的手中。

这种情况终于改变了,部分归功于 BigScience 的努力。该组织的 1,000 多名志愿者研究人员——在伦理学家、哲学家、法律学者和来自初创公司和大型科技公司的工程师的支持下——花了几个月的时间致力于 Bloom,它在规模上与 OpenAI 和 Alphabet 的 DeepMind 等公司制造的 LLM 相媲美。作为跨多种语言工作的最大开源模型之一,Bloom 旨在应用于一系列研究应用,例如从历史文本中提取信息。

“ Bloom 能够以 46 种自然语言和方言以及 13 种编程语言生成文本,”在发布前与 TechCrunch 分享的一篇博文中写道。 “虽然它从未接受过任何这些特定任务的培训,但 Bloom 可以被要求生成文本的摘要或翻译,从指令中输出代码,并按照提示执行原始任务,例如编写食谱、从新闻文章中提取信息或用一个新定义的发明词组成句子……随着工作室继续在 Bloom 上进行实验和推进,Bloom 的表现将继续提高。”

BigScience 的支持者还希望 Bloom 能够激发新的调查,以解决困扰所有 LLM 的问题,包括偏见和毒性。法学硕士倾向于散布谎言并表现出对宗教、性别、种族和残疾人的偏见。他们还与写作的基本原则作斗争,经常改变谈话的主题而没有继续,无休止地重复——甚至是自相矛盾——自己。

“[Bloom] 展示了开源和开放科学的持续力量,即使对于昂贵的大型基础模型也是如此,”You.com 首席执行官兼 Salesforce 前首席科学家 Richard Socher 通过电子邮件告诉 TechCrunch。 Socher 没有参与 BigScience。 “这也表明,在人工智能领域,没有哪个组织能长期占据主要优势。一旦一个组织表明某件事是可行的,同样的能力将在其他地方出现 6 到 12 个月后。”

卑微的开始

BigScience 起源于多年前 Hugging Face 首席科学官 Thomas Wolf、 GENCI 的Stéphane Requena 和IDRIS的 Pierre-François Lavallée 之间的讨论。创始人设想创建软件、数据集、法学硕士和工具来探索人工智能的社会影响,直到最近几年才受到研究界越来越多的关注。

很快,指导委员会成立,为来自 60 多个国家和 250 个机构的 BigScience 成员提供科学和一般建议、设计协作任务并组织研讨会、黑客马拉松和公共活动。不同的工作组负责解决数据治理等挑战,证明数学和档案策略的定理,以及隐私和知情同意和其他法律问题。

Bloom是他们工作的总和。它使用价值 700 万美元的公共资助(通过赠款)在位于法国巴黎附近的 Jean Zay 超级计算机上进行训练,该超级计算机是世界上最强大的机器之一。

学术界正在就人工智能培训的碳影响进行 激烈的讨论;数据中心并不是特别环保。但 BigScience 表示,Jean Zay 凭借其独特的冷却系统和核动力源,能够以相当于巴黎到纽约航班的碳足迹训练 Bloom。

与所有语言模型一样,Bloom 本质上是一种预测单词的统计工具。通过从 1.6 TB 的训练数据集中获取大量示例,Bloom 根据模式(包括周围文本的语义上下文)了解单词出现的可能性有多大。例如,给定一封以“期待……”片段结尾的典型电子邮件,布鲁姆可能会以“……回听”来完成它。

BigScience 工作组的一个目标是收集足够有代表性的数据来​​训练 Bloom。由于公共数据源中的系统性偏差,非英语法学硕士传统上表现不如英语语言的同行。利用书籍、学术出版物、广播转录、播客和网站,用于训练 Bloom 的 3410 亿字数据集旨在编码跨语言的不同文化背景,包括斯瓦希里语、加泰罗尼亚语、孟加拉语和越南语。

BigScience 小组从 500 个来源中精心挑选了近三分之二的数据集,征求社区团体的建议,包括非洲自然语言处理社区 Masakhane、LatinX in AI 和机器学习东京。他们针对隐私进行了编辑并针对质量进行了过滤,例如试图减少色情网站的过度代表,这些网站往往包含性别歧视的关联。

Bloom 并非完全没有偏见——没有 LLM。但希望是,通过保持训练数据的透明度,研究人员将更容易找到 Bloom 预测和决策的根源。

体积大

Bloom 有 1760 亿个参数,大致相当于 GPT-3 的大小。机器学习中的参数是从训练数据中学习到的 LLM 的一部分,并且往往与模型在生成文本等任务上的有效性相关。

一般来说,更高参数的模型需要更多的计算能力来训练。 AI21 Labs 2020 年的一项研究显示,开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元; Bloom 在 384 个 Nvidia A100 GPU 上训练了三个月。这一事实使得社区很难使用大型、最先进的语言模型,如微软和英伟达的 Megatron-Turing 自然语言生成 (MT-NLG),它有 5300 亿个参数。

BigScience 声称,研究人员将能够以低于每小时 40 美元的价格在云提供商上使用 Bloom。但为了消除这种访问障碍,该组织计划发布更小、硬件密集度更低的 Bloom 版本,并正在开发一个分布式系统,允许实验室在其服务器之间共享模型。 API 也在开发中。

Bloom 加入了一个新兴的开源生态系统,功能强大的 LLM 具有广泛的商业和研究用途。 2 月,开放式 AI 研究小组 EleutherAI 发布了 GPT-NeoX-20B,在当时的多个基准测试中,它的表现优于其他公共语言模型。几个月后,Meta 开源了 OPT-175B,该公司声称这是第一个提供给 AI 社区的 1750 亿参数的语言模型。

它们已经得到了很好的利用——企业已经围绕 EleutherAI 的模型涌现。但一些研究人员担心滥用。在马里兰大学,研究人员发现,法学硕士有可能产生足以欺骗专家的虚假新闻和网络安全报告。 Meta 研究人员共同撰写的另一篇论文探讨了 LLM 可能带来的潜在危害,这些 LLM 提供的建议不佳,尤其是医学或心理预测。

许多通过 API 提供 LLM 访问权限的公司(例如 OpenAI)应用过滤器来清除有问题的文本。但是开源模型显然没有这样的保护。

认识到滥用的可能性,Bloom 附带了概述其功能和限制的文档。使用它需要同意法律许可,承诺研究人员不会将该模型用于恶意目的。 BigScience 计划监控模型的应用情况,并根据需要调整许可和文档。

“我们计划添加更多语言,使模型更小,以便在相同性能水平下更易于使用,我们将支持社区努力扩展它,”博客文章继续说道。 “Bloom 是一个活生生的模型家族,会不断成长,而不是一劳永逸的模型。”

原文: https://techcrunch.com/2022/07/12/a-year-in-the-making-bigsciences-ai-language-model-is-finally-available/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Slava Akhmechet
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme