超越诺奖的人工智能技术:从零开始生成原始蛋白质

【字体: 时间:2023年01月31日 来源:Nature Biotechnology

编辑推荐:

  科学家们创造了一个能够从头开始产生人工酶的人工智能系统。在实验室测试中,其中一些酶与自然界中发现的酶一样有效,即使它们人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。

  

2.png

实验表明,尽管自然语言处理是为了读写语言文本而发展起来的,但它至少可以学习一些生物学的基本原理。深度学习语言模型在包括蛋白质设计和工程在内的各种生物技术应用中显示出了前景。

在这里,Salesforce Research开发了名为ProGen的人工智能程序,这是一种语言模型,类似于在不同主题上生成语法和语义正确的自然语言句子。它可以在大型蛋白质家族中生成具有可预测功能的蛋白质序列,该程序使用next-token prediction将氨基酸序列组装成人工蛋白质。

该模型基于19000多个家族中的2.8亿个蛋白质序列进行训练,并添加了指定蛋白质特性的控制标签。ProGen可以进一步微调到精选的序列和标签,以提高来自具有足够同源样本的家族的蛋白质的可控生成性能。他们用来自5个溶菌酶家族的56000个序列启动该模型,并结合一些有关这些蛋白质的上下文信息,对该模型进行了微调。该模型很快生成了一百万个序列,研究团队根据它们与天然蛋白质序列的相似度以及人工智能蛋白质的潜在氨基酸“语法”和“语义”的自然性,选择了100个序列进行测试。

五个不同溶菌酶家族的人工蛋白显示出与天然溶菌酶相似的催化效率,与天然蛋白的序列同一性最低只有31.4%。

Tierra Biosciences在体外筛选了第一批100种蛋白质,该团队制作了5种人工蛋白质在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶进行了比较,这种酶被称为鸡蛋清溶菌酶(HEWL)。类似的溶菌酶存在于人的眼泪、唾液和牛奶中,它们可以抵御细菌和真菌。

其中两种人工酶能够破坏细菌的细胞壁,其活性与HEWL相当,但它们的序列彼此之间只有约18%的一致性。这两个序列与任何已知的蛋白质约90%和70%相同。

一种天然蛋白质中只有一个突变可以使其停止工作,但在另一轮筛选中,该团队发现,人工智能产生的酶即使只有31.4%的序列与任何已知的天然蛋白质相似,也显示出活性。

ProGen很容易适应不同的蛋白质家族,正如本文使用分枝酸变位酶和苹果酸脱氢酶所证明的那样。

这项新技术可能会比诺贝尔奖得主的蛋白质设计技术——定向进化技术更强大,它将通过加快新蛋白质的开发,为拥有50年历史的蛋白质工程领域注入活力,这些新蛋白质可用于从治疗到降解塑料的几乎任何用途。

人工智能甚至可以通过研究原始序列数据来了解酶的形状。用X射线晶体学测量,人造蛋白质的原子结构看起来应该是一样的,尽管序列和以前没有什么不同。

ProGen的研发历史始于2020年,基于研究人员最初开发的一种生成英语文本的自然语言编程。他们从之前的工作中了解到,人工智能系统可以自学语法和单词的含义,以及其他使写作变得很好的基本规则。

对于蛋白质,设计选择几乎是无限的。溶菌酶含有约300个氨基酸。但由于有20种可能的氨基酸,有大量(20300种)可能的组合。这比把所有生活在整个时间里的人类,乘以地球上沙粒的数量,乘以宇宙中原子的数量还要大。考虑到无限的可能性,该模型可以如此容易地产生工作酶。

Profluent Bio创始人Ali Madani博士表示:“从头开始生产功能性蛋白质的能力表明,我们正在进入蛋白质设计的新时代。”

该工作于1月26日发表在《Nature Biotechnology》上。自202年7月以来,该论文的前一版本已经在预印本服务器BiorXiv上发布,在该服务器上,该论文获得了几十次引文,随后被发表在同行评议的期刊上。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号