将英文文本翻译成蛋白质的人工智能正在撼动这一领域。
“请简明扼要地概括一下《碟中谍》系列迄今为止的角色和剧情,”最近,在观看这部最新系列电影之前,我向 ChatGPT 提问。它做到了。我不需要理解它的代码,也不需要知道它的训练数据集。我只需要问一下。
ChatGPT 和其他基于大型语言模型(LLM)的聊天机器人比以往任何时候都更受欢迎。科学家们正在关注这一点。蛋白质——细胞的分子动力——维持着我们身体的平稳运转。它们也有自己的语言。科学家为构成蛋白质的 20 种氨基酸分别分配一个简写字母。像单词一样,这些字母串连接在一起形成工作蛋白质,它们的序列决定了蛋白质的形状和功能。
受法学硕士 (LLM) 的启发,科学家们正在构建蛋白质语言模型,以便从零开始设计蛋白质。其中一些算法已经公开,但需要一定的技术技能。如果普通研究人员只需一个提示就能让人工智能设计蛋白质,那会怎样呢?
上个月,研究人员为蛋白质设计AI引入了ChatGPT算法。根据所需蛋白质的类型、结构或功能的描述,该算法可以生成潜在的候选蛋白质。例如,名为Pinal的AI在活细胞内测试中成功合成了多种能够分解酒精的蛋白质。您可以点击此处试用。
Pinal 是一系列不断壮大的算法中的最新一个,这些算法将日常英语翻译成新的蛋白质。这些蛋白质设计师能够理解通俗易懂的语言和结构生物学知识,并能为探索定制蛋白质的科学家提供指导,几乎不需要任何技术专业知识。
Pinal 背后的国际团队在发布于 bioRxiv 的预印本中写道,这是一种“雄心勃勃且通用的方法”。该人工智能利用“自然语言的描述能力和灵活性”,使设计蛋白质更容易被生物学家所理解。
与现有的蛋白质设计算法相比,Pinal 更好地理解了目标蛋白质的主要目标,并提高了其在活细胞中发挥作用的机会。
“我们是第一个仅使用文本就设计出功能性酶的人,”领导该团队的中国西湖大学人工智能科学家袁发杰告诉《自然》杂志。“这就像科幻小说一样。”
超越进化
蛋白质是生命的基石。它们构成我们的身体,促进新陈代谢,也是许多药物的作用靶点。这些复杂的分子始于氨基酸“字母”序列,这些字母彼此结合,最终折叠成复杂的三维结构。许多结构元素——比如这里的一个环、那里的一个编织或口袋——对它们的功能至关重要。
长期以来,科学家们一直在探索赋予蛋白质新能力的途径,例如能够高效分解塑料的酶。传统上,他们会根据特定的生物、化学或医学用途定制现有蛋白质。作者写道,这些策略“受限于对现有蛋白质模板的依赖以及自然进化的限制”。相比之下,蛋白质语言模型可以构想出一个不受进化束缚的全新蛋白质世界。
这些算法不像法学硕士(LLM)那样吸收文本、图像或视频文件,而是通过对蛋白质序列和结构进行训练来学习蛋白质的语言。例如, EvolutionaryScale的 ESM3 就对超过 27 亿个蛋白质序列、结构和功能进行了训练。类似的模型已经被用于设计抵抗病毒攻击的抗体和新的基因编辑工具。
但这些算法如果没有专业知识很难使用。相比之下,Pinal 的目标客户是普通科学家。该团队写道,就像自动模式下的数码单反相机一样,该模型“绕过了手动的结构规范”,从而简化了合成所需蛋白质的过程。
跟我说话
要使用 Pinal,用户需要使用几个关键词、短语或整段文字作为提示,让 AI 构建一个蛋白质。在前端,AI 会解析提示中的具体要求。在后端,它会将这些指令转化为功能性蛋白质。
这有点像让 ChatGTP 帮你写一篇餐厅评论或一篇文章。当然,蛋白质的设计难度更大。虽然它们也是由“字母”组成的,但它们的最终形状决定了它们如何(或是否)发挥作用。一种被称为端到端训练的方法,直接将指令翻译成蛋白质序列。但这会让人工智能接触到广阔的潜在序列世界,使其更难找到工作蛋白质的准确序列。与序列相比,蛋白质结构——最终的 3D 形状——更容易被算法生成和解读。
接下来是令人头疼的训练数据。为此,团队利用现有的蛋白质数据库,并使用 LLM 对其进行标记。最终,他们构建了一个包含 17 亿个蛋白质-文本对的庞大数据库,其中的蛋白质结构与其功能的文本描述相匹配。
完成的算法使用 160 亿个参数(这些是人工智能的内部连接)将简单的英语翻译成生物语言。
Pinal 遵循两个步骤。首先,它将提示转化为结构信息。此步骤将蛋白质分解成更易于处理的结构元素,或称为“标记”。在第二步中,一个名为SaProt的蛋白质语言模型会综合考虑用户意图和蛋白质功能,以设计出最有可能折叠成满足用户需求的工作蛋白质的蛋白质序列。
与同样使用文本作为输入的先进蛋白质设计算法(包括ESM3 )相比,Pinal 在准确性和新颖性方面表现更胜一筹——也就是说,它能够生成自然界未知的蛋白质。使用几个关键词来设计蛋白质,“Pinal 算法生成的蛋白质中有一半表现出可预测的功能,而 ESM3 算法生成的蛋白质中只有约 10% 表现出可预测的功能。”
在一项测试中,该团队给人工智能一个简短的提示:“请设计一种酒精脱氢酶蛋白质。”这些酶可以分解酒精。从1600多种候选蛋白质中,该团队挑选出最有前景的八种,并在活细胞中进行测试。其中两种蛋白质在体温下成功分解酒精,而另一些蛋白质在75摄氏度(约80摄氏度)的高温下则更加活跃。
更复杂的提示包括蛋白质的功能和类似分子的例子,产生了抗生素和蛋白质的候选物,以帮助细胞从感染中恢复。
Pinal 并非唯一一家将文本转化为蛋白质的 AI 公司。初创公司310 AI开发了一种名为 MP4 的AI,可以从文本生成蛋白质,该公司表示,这一成果可能有益于治疗心脏病。
这种方法并不完美。就像经常“产生幻觉”的法学硕士 (LLM) 一样,蛋白质语言模型也会虚构出不可靠或重复的序列,从而降低最终结果的概率。提示的精确措辞也会影响最终的蛋白质结构。不过,该人工智能就像 DALL-E 的第一个版本:先试用一下,然后用其他方法验证最终的蛋白质结构。