Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

当大型 AI 实验室拒绝开源他们的模型时,社区会介入

Posted on 2022-05-19

基准是衡量人工智能进步的重要指标,就像它们对软件行业的其他部分一样。但是,当基准结果来自公司时,保密性通常会阻止社区对其进行验证。

例如,OpenAI 授予与其有商业关系的微软对其强大的 GPT-3 语言模型的独家许可权。其他组织表示,他们用于开发系统的代码依赖于无法发布的内部工具和基础设施,或者使用受版权保护的数据集。虽然动机在本质上可能是合乎道德的——OpenAI 最初拒绝发布 GPT-3 的前身 GPT-2,因为担心它可能被滥用——但效果是一样的。如果没有必要的代码,第三方研究人员很难验证组织的声明。

“这并不是良好的行业开源实践的充分替代方案,”哥伦比亚计算机科学博士。候选人 Gustaf Ahdritz 通过电子邮件告诉 TechCrunch。 Ahdritz 是 OpenFold 的主要开发人员之一,OpenFold 是 DeepMind 的蛋白质结构预测AlphaFold 2的开源版本。 “很难用 DeepMind 发布的代码来完成人们可能想做的所有科学工作。”

一些研究人员甚至说,扣留系统代码“破坏了它的科学价值”。 2020 年 10 月,在《自然》杂志上发表的一篇反驳文章对 Google Health 训练的癌症预测系统提出了质疑,Google Health 是 Google 的一个分支,专注于与健康相关的研究。合著者指出,谷歌隐瞒了关键技术细节,包括对系统开发方式的描述,这可能会显着影响其性能。

打开折叠

图片来源: OpenFold

代替改变的是,人工智能社区的一些成员,比如 Ahdritz,已经将自己的系统开源作为他们的使命。根据技术论文,这些研究人员煞费苦心地尝试重新创建系统,或者从头开始,或者在公开可用规范的片段上构建。

OpenFold就是这样一种努力。根据 Ahdritz 的说法,在 DeepMind 宣布 AlphaFold 2 后不久,目标是验证 AlphaFold 2 是否可以从头开始复制,并提供可能在其他地方有用的系统组件。

“我们相信 DeepMind 提供了所有必要的细节,但是……我们没有 [具体的] 证据,因此这项工作是提供这条线索并允许其他人在其上进行建设的关键,”Ahdritz 说。 “此外,最初,某些 AlphaFold 组件处于非商业许可之下。我们的组件和数据——DeepMind 还没有公布他们的完整训练数据——将完全开源,从而实现行业采用。”

OpenFold 并不是唯一的此类项目。在其他地方,AI 社区内松散附属的团体正在尝试实现 OpenAI 的代码生成 Codex 和艺术创作DALL-E 、DeepMind 的国际象棋AlphaZero ,甚至AlphaStar ,这是一个旨在玩实时战略游戏星际争霸的 DeepMind 系统2. 其中比较成功的是EleutherAI和 AI 初创公司 Hugging Face 的BigScience ,这是一项开放研究工作,旨在提供运行与 GPT-3 相当(尽管不相同)的模型所需的代码和数据集。

Philip Wang 是 AI 社区的一位多产成员,他在 GitHub 上维护了许多开源实现,包括 OpenAI 的 DALL-E 之一,他认为开源这些系统可以减少研究人员重复工作的需要。

“我们阅读最新的人工智能研究,就像世界上任何其他研究人员一样。但是,我们不是在孤岛中复制论文,而是将其开源实施,”王说。 “我们处于信息科学与工业交汇处的一个有趣的地方。我认为开源不是片面的,最终会让每个人受益。它还吸引了更广泛的愿景,即真正民主化的 AI 不受股东的约束。”

两位 Google 员工 Brian Lee 和 Andrew Jackson 共同创建了MiniGo ,它是 AlphaZero 的复制品。虽然不隶属于官方项目,但 Lee 和 Jackson(在 DeepMind 最初的母公司 Google)拥有访问某些专有资源的优势。

迷你围棋

图片来源:迷你围棋

Google Brain 的研究工程师 Lee 通过电子邮件告诉 TechCrunch:“[从论文中向后工作] 就像在我们没有 GPS 之前进行导航一样。” “这些说明谈到了你应该看到的地标,你应该朝某个方向走多长时间,在关键时刻要走哪个岔路口。有足够的细节让经验丰富的导航员找到他们的路,但如果你不知道如何阅读指南针,你将无可救药地迷路。你不会完全追溯这些步骤,但你最终会回到同一个地方。”

包括 Ahdritz 和 Jackson 在内的这些计划背后的开发人员表示,他们不仅将帮助证明系统是否像宣传的那样工作,而且可以实现新的应用程序和更好的硬件支持。来自 DeepMind、OpenAI、Microsoft、Amazon 和 Meta 等大型实验室和公司的系统通常在昂贵的专有数据中心服务器上进行训练,其计算能力远远超过普通工作站,这增加了开源的障碍。

“训练 AlphaFold 的新变体可能会带来超越蛋白质结构预测的新应用,这在 DeepMind 的原始代码发布中是不可能的,因为它缺乏训练代码——例如,预测药物如何与蛋白质结合、蛋白质如何移动以及蛋白质如何与蛋白质相互作用。其他生物分子,”Ahdritz 说。 “有几十个影响很大的应用程序需要训练 AlphaFold 的新变体或将 AlphaFold 的部分集成到更大的模型中,但缺乏训练代码会阻止所有这些应用程序。”

“这些开源努力在传播有关这些系统如何在非学术环境中表现的‘工作知识’方面做了很多工作,”杰克逊补充说。 “[对于 AlphaZero] 重现原始结果所需的计算量非常高。我不记得脑海中浮现的数字,但它涉及一周运行大约一千个 GPU。我们处于一个非常独特的位置,能够帮助社区尝试这些模型,因为我们可以提前访问尚未公开的 Google Cloud Platform 的TPU产品。”

以开源方式实现专有系统充满挑战,尤其是在几乎没有公开信息的情况下。理想情况下,除了用于训练系统的数据集和所谓的权重(负责将输入系统的数据转换为预测)之外,该代码还可用。但这种情况并不常见。

例如,在开发 OpenFold 时,Ahdritz 和团队必须从官方资料中收集信息,并协调不同来源之间的差异,包括源代码、补充代码和 DeepMind 研究人员早期提供的演示文稿。数据准备和训练代码等步骤中的歧义导致错误的开始,而缺乏硬件资源则需要在设计上做出妥协。

“我们只有几次尝试才能做到这一点,以免这种情况无限期地拖下去。这些东西具有如此多的计算密集型阶段,以至于一个微小的错误 y 可能会让我们大大退缩,以至于我们不得不重新训练模型并重新生成大量训练数据,”Ahdritz 说。 “一些对 [DeepMind] 非常有效的技术细节对我们来说并不那么容易,因为我们拥有不同的硬件……此外,关于哪些细节至关重要以及哪些细节是在没有经过深思熟虑的情况下选择的,因此难以优化或调整任何东西并将我们锁定在原始系统中做出的任何(有时是尴尬的)选择中。”

那么,像 OpenAI 这样的专有系统背后的实验室是否关心他们的工作是否被逆向工程,甚至被初创公司用来推出竞争服务?显然不是。 Ahdritz 表示,DeepMind 特别发布了有关其系统的如此多细节这一事实表明它暗中支持这些努力,即使它没有公开表示过。

“我们没有收到任何明确的迹象表明 DeepMind 不赞成或赞成这项工作,”Ahdritz 说。 “但可以肯定的是,没有人试图阻止我们。”

原文: https://techcrunch.com/2022/05/19/when-big-ai-labs-refuse-to-open-source-their-models-the-community-steps-in/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme