Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

稳定性 AI 支持将机器学习带入生物医学的努力

Posted on 2022-11-05

Stability AI是文本到图像 AI 系统 Stable Diffusion 背后的风险投资初创公司,它正在资助一项将 AI 应用于生物技术前沿的广泛努力。这项名为OpenBioML的项目将专注于基于机器学习的 DNA 测序、蛋白质折叠和计算生物化学方法。

根据 Stability AI 首席执行官 Emad Mostaque 的说法,该公司的创始人将 OpenBioML 描述为一个“开放式研究实验室”,旨在探索人工智能和生物学的交叉点,让学生、专业人士和研究人员可以参与和合作。

“OpenBioML 是 Stability 支持的独立研究社区之一,”Mostaque 在电子邮件采访中告诉 TechCrunch。 “稳定性旨在发展人工智能并使其民主化,通过 OpenBioML,我们看到了推进科学、健康和医学领域最先进技术水平的机会。”

鉴于围绕 Stable Diffusion 的争议——Stability AI 的 AI 系统从文本描述中生成艺术,类似于 OpenAI 的 DALL-E 2——人们可能会对 Stability AI 首次涉足医疗保健领域保持警惕,这是可以理解的。这家初创公司采取了自由放任的治理方式,允许开发人员随心所欲地使用该系统,包括名人深度伪造和色情内容。

迄今为止,稳定性 AI 的伦理问题决定不谈,医学中的机器学习是一个雷区。虽然该技术已成功应用于诊断皮肤和眼部疾病等疾病,但研究表明,算法可能会产生偏见,从而导致对某些患者的护理更差。例如,2021 年 4 月的一项研究发现,用于预测心理健康患者自杀风险的统计模型对白人和亚洲患者表现良好,但对黑人患者表现不佳。

OpenBioML 明智地从更安全的领域开始。它的第一个项目是:

  • BioLM ,旨在将自然语言处理 (NLP) 技术应用于计算生物学和化学领域
  • DNA-Diffusion ,旨在开发可以从文本提示中生成 DNA 序列的 AI
  • LibreFold ,它希望增加对类似于 DeepMind 的AlphaFold 2的 AI 蛋白质结构预测系统的访问

每个项目都由独立研究人员领导,但 Stability AI 以访问其 AWS 托管的 5,000 多个 Nvidia A100 GPU 集群的形式提供支持,以训练 AI 系统。根据帕尔马大学计算机科学本科生和 OpenBioML 的主要研究人员之一 Niccolò Zanichelli 的说法,这将有足够的处理能力和存储空间,最终可以并行训练多达 10 个不同的 AlphaFold 2 类系统。

“许多计算生物学研究已经导致了开源版本。然而,其中大部分发生在单个实验室的层面,因此通常受到计算资源不足的限制,”Zanichelli 通过电子邮件告诉 TechCrunch。 “我们希望通过鼓励大规模合作来改变这种状况,并且在 Stability AI 的支持下,利用只有最大的工业实验室才能获得的资源来支持这些合作。”

生成 DNA 序列

在OpenBioML 正在进行的项目中,由麻省总医院和哈佛医学院病理学教授 Luca Pinello 的实验室领导的 DNA-Diffusion 可能是最雄心勃勃的。目标是使用生成式 AI 系统来学习和应用 DNA 的“调节”序列或影响生物体内特定基因表达的核酸分子片段的规则。许多疾病和紊乱是基因失调的结果,但科学尚未发现可靠的过程来识别 – 更不用说改变 – 这些调节序列。

DNA-Diffusion 建议使用一种称为扩散模型的 AI 系统来生成细胞类型特异性调节 DNA 序列。扩散模型(支持稳定扩散和 OpenAI 的 DALL-E 2 等图像生成器)通过学习如何破坏和恢复许多现有数据样本来创建新数据(例如 DNA 序列)。当他们被输入样本时,模型会更好地恢复他们之前破坏的所有数据以生成新的作品。

稳定性 AI OpenBioML

图片来源: OpenBioML

“扩散在多模态生成模型中取得了广泛的成功,现在它开始应用于计算生物学,例如用于生成新的蛋白质结构,”Zanichelli 说。 “借助 DNA-Diffusion,我们现在正在探索其在基因组序列中的应用。”

如果一切按计划进行,DNA-Diffusion 项目将生成一个扩散模型,该模型可以从文本指令中生成调控 DNA 序列,例如“在 X 型细胞中将基因激活到其最大表达水平的序列”和“一个序列激活肝脏和心脏中的基因,但不会激活大脑中的基因。” Zanichelli 说,这样的模型还可以帮助解释调控序列的组成部分——提高科学界对调控序列在不同疾病中作用的理解。

值得注意的是,这在很大程度上是理论上的。 Zanichelli 承认,虽然关于将扩散应用于蛋白质折叠的初步研究似乎很有希望,但现在还处于早期阶段——因此推动了更广泛的人工智能社区的参与。

预测蛋白质结构

OpenBioML 的 LibreFold 虽然规模较小,但更有可能立即取得成果。该项目旨在更好地了解预测蛋白质结构的机器学习系统以及改进它们的方法。

正如我的同事 Devin Coldewey在他关于 DeepMind 在 AlphaFold 2 上的工作的文章中所述,准确预测蛋白质形状的 AI 系统在现场相对较新,但在其潜力方面具有变革性。蛋白质由氨基酸序列组成,这些氨基酸序列折叠成形状以在生物体内完成不同的任务。确定酸序列将产生何种形状的过程曾经是一项艰巨且容易出错的工作。像 AlphaFold 2 这样的人工智能系统改变了这一点;多亏了它们,当今科学界已经知道了人体中超过 98% 的蛋白质结构,以及大肠杆菌和酵母等生物体中的数十万种其他结构。

不过,很少有团队拥有开发这种人工智能所需的工程专业知识和资源。 DeepMind 花了数天时间在张量处理单元(TPU) 上训练 AlphaFold 2,这是谷歌昂贵的人工智能加速器硬件。酸序列训练数据集通常是专有的或在非商业许可下发布。

蛋白质折叠成它们的三维结构。图片来源: Christoph Burgstedt/Science Photo Library/Getty Images

“这很遗憾,因为如果你看看社区能够在 DeepMind 发布的 AlphaFold 2 检查点之上构建什么,这简直令人难以置信,”Zanichelli 说,他指的是 DeepMind 去年发布的经过训练的 AlphaFold 2 模型. “例如,就在发布几天后,首尔国立大学教授 Minkyung Baek 在 Twitter 上报告了一个技巧,该技巧允许该模型预测四元结构——这是很少有人(如果有的话)认为该模型能够做到的。这类例子还有很多,如果有能力训练全新的类似 AlphaFold 的蛋白质结构预测方法,谁知道更广泛的科学界会建立什么?”

基于RoseTTAFold和 OpenFold 的工作,两个正在进行的社区复制 AlphaFold 2 的努力, LibreFold 将促进各种蛋白质折叠预测系统的“大规模”实验。根据 Zanichelli 的说法,由伦敦大学学院、哈佛大学和斯德哥尔摩大学的研究人员带头,LibreFold 的重点将是更好地了解这些系统可以完成什么以及为什么。

“LibreFold 的核心是一个由社区为社区服务的项目。模型检查点和数据集的发布也是如此,因为我们可能只需要一两个月的时间就可以开始发布第一批可交付成果,或者可能需要更长的时间,”他说。 “也就是说,我的直觉是前者的可能性更大。”

将 NLP 应用于生物化学

在更长的时间范围内是OpenBioML 的BioLM 项目,该项目具有“将源自 NLP 的语言建模技术应用于生化序列”的模糊使命。 BioLM 与发布了几个开源文本生成模型的研究小组 EleutherAI 合作,希望为一系列任务训练和发布新的“生化语言模型”,包括生成蛋白质序列。

Zanichelli 以 Salesforce 的ProGen作为 BioLM 可能开展的工作类型的一个例子。 ProGen 将氨基酸序列视为句子中的单词。该模型在超过 2.8 亿个蛋白质序列和相关元数据的数据集上进行训练,从之前的氨基酸中预测下一组氨基酸,就像语言模型从开头预测句子的结尾一样。

英伟达今年早些时候发布了一种语言模型MegaMolBART ,该模型在数百万个分子的数据集上进行了训练,以搜索潜在的药物靶点并预测化学反应。 Meta 最近还针对蛋白质序列训练了一种名为 ESM-2 的 NLP,该公司声称这种方法可以在短短两周内预测超过 6 亿种蛋白质的序列。

元蛋白折叠

Meta 系统预测的蛋白质结构。图片来源:元

展望未来

尽管 OpenBioML 的兴趣广泛(并且还在不断扩大),Mostaque 表示,他们的共同愿望是“最大限度地发挥机器学习和人工智能在生物学中的积极潜力”,遵循科学和医学开放研究的传统。

“我们希望让研究人员能够更好地控制他们的实验管道,以实现主动学习或模型验证的目的,”Mostaque 继续说道。 “我们还希望通过越来越通用的生物技术模型来推动最先进的技术,这与目前大多数计算生物学所特有的专业架构和学习目标形成鲜明对比。”

但是——正如最近筹集了超过 1 亿美元的 VC 支持的初创公司所预期的那样——Stability AI 并不认为 OpenBioML 是一项纯粹的慈善事业。 Mostaque 表示,该公司愿意“在足够先进、足够安全且时机成熟时”探索 OpenBioML 的商业化技术。

稳定性 AI 支持将机器学习带入生物医学的努力,作者Kyle Wiggers最初发表在TechCrunch上

原文: https://techcrunch.com/2022/11/04/stability-ai-backs-effort-to-bring-machine-learning-to-biomed/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme