自监督机器学习方法在蛋白质设计中提升采样效率但未显著改善高适应性变体识别

《SCIENCE ADVANCES》:Self-supervised machine learning methods for protein design improve sampling but not the identification of high-fitness variants

【字体: 时间:2025年02月13日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  本文系统评估了自监督机器学习(ML)方法在蛋白质设计中的应用,通过整合Rosetta软件框架建立标准化比较平台。研究发现ML模型能有效过滤有害突变(sampling优化),但在零样本(zero-shot)条件下,其突变评分(scoring)性能未超越传统生物物理方法(如Rosetta)。研究强调ML当前作为生物物理方法的补充而非替代,为蛋白质工程提供新策略,并开源了概率设计工具包(https://github.com/meilerlab/probabilities_design)。

  

蛋白质设计领域正经历机器学习(ML)的革命性变革。传统生物物理方法如Rosetta虽成功设计出首个从头蛋白质、酶和抗体,但面临采样(sampling)与评分(scoring)两大核心挑战。本研究构建了集成Rosetta的ML标准化工具箱,实现ProteinMPNN、ESM-2和MIF-ST等16种模型的并行比较。

在采样性能评估中,ML模型展现出显著优势。以GB1蛋白为例,ProteinMPNN结合FastRelax协议生成的候选变体中,高适应性(fitness>1.5)变体数量是Rosetta FastDesign的3倍。值得注意的是,ESM在温度参数T=1.5时,76%的抗体变体保持HER2结合能力,凸显PLM在抗体工程中的潜力。然而,avGFP荧光增强案例中,所有方法采样变体的中位荧光强度均低于野生型,揭示酶活性设计的特殊挑战。

评分环节的发现更具颠覆性。虽然MIF-ST伪困惑度(pseudo-perplexity)与GB1适应性相关性最高(ρ=-0.60),但Rosetta总评分在avGFP中表现更优(ρ=-0.33)。令人意外的是,AlphaFold2预测的界面pAE分数对曲妥珠单抗结合预测最准确(ρ=-0.31),而所有方法在双特异性抗体(emibetuzumab)评分中均表现欠佳。

研究提出两种实用策略:低温采样结合少量实验验证适合渐进式改良;高温采样配合高通量筛选则更可能获得突破性变体。这些发现为ML在蛋白质工程中的应用划定了边界——当前阶段,自监督ML更适合作为传统方法的补充而非替代。该工作不仅建立了标准化评估框架,更为未来开发融合生物物理原理与ML的新型评分函数指明了方向。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号