AI2 正在开发针对科学优化的大型语言模型

掌上电脑 2 。 GPT-4 。文本生成 AI 的列表实际上与日俱增。

这些模型中的大多数都被 API 所包围，使研究人员无法确切地了解是什么让它们发挥作用。但越来越多的社区努力正在产生与商业对手一样复杂甚至更复杂的开源人工智能。

这些努力中的最新成果是开放语言模型，这是一种大型语言模型，将于 2024 年某个时候由非营利组织艾伦人工智能研究所 (AI2) 发布。开放语言模型（简称 OLMo）正在与 AMD 合作开发以及为培训和教育提供超级计算能力的 Large Unified Modern Infrastructure 联盟，以及 Surge AI 和 MosaicML（提供数据和培训代码）。

“研究和技术社区需要访问开放语言模型来推进这门科学，”AI2 NLP 研究高级主管 Hanna Hajishirzi 在接受电子邮件采访时告诉 TechCrunch。 “通过 OLMo，我们正在努力通过建立一个有竞争力的语言模型来缩小公共和私人研究能力和知识之间的差距。”

有人可能想知道——包括这位记者——为什么 AI2 觉得有必要开发一个开放的语言模型，而已经有几个可供选择（参见Bloom 、Meta 的LLaMA等）。 Hajishirzi 的看法是，虽然迄今为止的开源版本很有价值，甚至是突破界限，但它们在各种方面都没有达到目标。

AI2 将 OLMo 视为一个平台，而不仅仅是一个模型——一个允许研究社区获取 AI2 创建的每个组件并自己使用或寻求改进的平台。 Hajishirzi 说，AI2 为 OLMo 所做的一切都将公开可用，包括公开演示、训练数据集和 API，并在“适当”许可下记录“非常有限”的例外情况。

Hajishirzi 说：“我们正在构建 OLMo，以便为 AI 研究社区创造更多直接在语言模型上工作的途径。” “我们相信 OLMo 各方面的广泛可用性将使研究社区能够利用我们正在创造的东西并努力改进它。我们的最终目标是合作构建世界上最好的开放语言模型。”

AI2 的 NLP 研究高级主管 Noah Smith 表示，OLMo 的另一个不同之处在于它专注于使模型能够更好地利用和理解教科书和学术论文，而不是代码。在这方面还有其他尝试，例如 Meta 臭名昭著的卡拉狄加模型。但 Hajishirzi 认为，AI2 在学术界的工作及其为研究开发的工具，如 Semantic Scholar，将有助于使 OLMo “特别适合”科学和学术应用。

“我们相信 OLMo 有潜力成为该领域真正特别的东西，特别是在许多人急于从对生成人工智能模型的兴趣中获利的环境中，”史密斯说。 “AI2 作为第三方专家的独特能力使我们有机会不仅可以利用我们自己的世界级专业知识，还可以与业内最强大的人才合作。因此，我们认为我们严格的、有记录的方法将为构建下一代安全、有效的人工智能技术奠定基础。”

可以肯定的是，这是一种很好的情绪。但是，围绕训练和发布生成人工智能的棘手伦理和法律问题又如何呢？围绕内容所有者（以及其他受影响的利益相关者）的权利展开了激烈的辩论，无数棘手的问题尚未在法庭上得到解决。

为了消除担忧，OLMo 团队计划与 AI2 的法律部门和待定的外部专家合作，在模型构建过程中的“检查点”停下来重新评估隐私和知识产权问题。

“我们希望通过关于模型及其预期用途的公开和透明的对话，我们可以更好地了解如何减轻偏见、毒性，并阐明社区内突出的研究问题，最终产生最强大的可用模型之一”史密斯说。

滥用的可能性如何？对于意图传播虚假信息和生成恶意代码的不良行为者而言，模型通常是有毒且有偏见的。

Hajishirzi 表示，AI2 将结合许可、模型设计和对底层组件的选择性访问，以“最大限度地提高科学效益，同时降低有害使用的风险”。为了指导政策，OLMo 有一个道德审查委员会，由内部和外部顾问（AI2 不会说具体是谁）组成，他们将在整个模型创建过程中提供反馈。

我们将看看这会在多大程度上产生影响。目前，还有很多悬而未决的事情——包括该型号的大部分技术规格。（AI2 确实透露它将有大约 700 亿个参数，参数是从历史训练数据中学习的模型的一部分。）训练将在芬兰的 LUMI 超级计算机上开始——截至 1 月，欧洲最快的超级计算机——未来几个月。

AI2 正在邀请合作者帮助贡献——并批评——模型开发过程。有兴趣的人可以在这里联系 OLMo 项目组织者。

AI2 正在开发针对科学优化的大型语言模型，作者Kyle Wiggers最初发表于TechCrunch

原文： https://techcrunch.com/2023/05/11/ai2-is-developing-a-large-language-model-optimized-for-science/