基于语言模型与深度学习的 TransBind:精准探测 DNA 结合蛋白及残基的创新突破

《Communications Biology》:TransBind allows precise detection of DNA-binding proteins and residues using language models and deep learning

【字体: 时间:2025年04月06日 来源:Communications Biology 5.2

编辑推荐:

  在生物学研究中,确定 DNA 结合蛋白及其结合残基对理解生物过程至关重要。传统实验方法缓慢且昂贵,现有机器学习方法存在不足。研究人员开展了 TransBind 相关研究,结果显示该方法能从单一序列精准预测,性能卓越。这为相关研究提供了高效工具,推动了领域发展。

  在生命的微观世界里,基因的表达调控如同精密的交响乐,而 DNA 与蛋白质之间的相互作用则是这场交响乐中关键的音符。DNA 结合蛋白(能与 DNA 发生特异性结合的蛋白质)及其结合残基(DNA 结合蛋白中与 DNA 结合的特定氨基酸残基)在基因调控、DNA 复制、转录和翻译等重要生物过程中发挥着核心作用。准确识别它们,就像是掌握了打开生命奥秘之门的钥匙,有助于深入理解各种生命现象的本质,也为相关疾病的诊断、治疗和药物研发提供关键线索。
然而,传统的实验方法,如基于微阵列的蛋白质微阵列测定、蛋白质结合微阵列和染色质免疫沉淀测序(ChIP-seq)等,虽然能够较为精确地识别 DNA 结合残基,但它们如同笨重的 “巨人”,不仅成本高昂,还耗费大量的时间和人力,使得研究进展缓慢。随着蛋白质数据库的不断丰富和机器学习(ML)技术的飞速发展,利用计算方法预测 DNA 结合蛋白和结合残基成为了新的研究方向。但现有的机器学习方法大多依赖于多序列比对(MSA)得到的进化特征,如位置特异性得分矩阵(PSSM)和隐马尔可夫模型(HMM)轮廓,以及结构信息。这种依赖带来了诸多问题,MSA-based 的进化特征提取耗时费力,对于孤儿蛋白(很少或没有同源物的蛋白质)和快速进化的蛋白质,往往难以获得有效的 MSA,导致这些方法的准确性大打折扣。

在这样的背景下,来自孟加拉国工程技术大学(Department of Computer Science and Engineering, Bangladesh University of Engineering and Technology)的研究人员 Md Toki Tahmid、A.K.M. Mehedi Hasan 和 Md Shamsuzzoha Bayzid 开展了一项具有创新性的研究。他们提出了 TransBind(基于迁移学习的结合预测)这一深度学习框架,旨在解决传统方法和现有机器学习方法存在的问题。该研究成果发表在《Communications Biology》上,为 DNA 结合蛋白和结合残基的预测领域带来了新的曙光。

研究人员在开展研究时,主要运用了以下关键技术方法:首先,利用预训练的蛋白质语言模型 ProtTrans,它能为每个氨基酸残基生成 1024 维的嵌入向量,以此获取蛋白质序列的特征。其次,采用自注意力机制,让每个氨基酸能够获取序列中其他氨基酸的信息,从而生成全局特征。然后,通过分离氨基酸,使用堆叠的 Inception V2 模块作为局部特征提取器,进一步挖掘每个氨基酸的局部特征。最后,为解决数据不平衡问题,引入加权损失函数进行训练。

下面来看具体的研究结果:

  • DNA - 蛋白质结合残基预测结果:研究人员在多个基准数据集上对 TransBind 和其他方法进行了评估。在 PDNA - 224 数据集上,TransBind 的马修斯相关系数(MCC)达到 0.82,远超之前最好的 0.48,在准确率、灵敏度和特异性等指标上也有显著提升。在 PDNA - 316 数据集上,除特异性略逊于 Saber 等人的方法(差异不具有统计学意义)外,其他指标均优于竞争对手。在 PDNA - 41 独立测试集上,TransBind 的 MCC 得分比之前最好的方法高 38.7%,整体性能显著优于其他方法。这表明 TransBind 在预测 DNA 结合残基方面具有更高的准确性和更好的平衡性能。
  • 性能分析:在与结合结构信息的方法对比中,TransBind 在不依赖 MSA 和结构域信息的情况下,与使用这些信息的方法相比仍具有很强的竞争力,在仅基于序列的模型中表现最佳。在同源序列相似性的研究中,随着蛋白质同源信息(用 NEFF 评分衡量)的减少,TransBind 相较于依赖进化特征的方法(如 iProDNA)优势愈发明显,更适合预测低同源性蛋白质。通过消融研究发现,TransBind 中全局和局部特征提取器以及加权损失函数对模型性能至关重要。此外,基于 ProtTrans 的嵌入在预测性能上优于 ESM。在对不同氨基酸的预测性能分析中,TransBind 在预测所有氨基酸的结合残基时,均能保持较高且稳定的灵敏度,而现有方法在预测某些代表性不足的氨基酸(如半胱氨酸(C)、异亮氨酸(I)、亮氨酸(L)和蛋氨酸(M))时表现较差。
  • DNA 结合蛋白预测结果:在 DNA 结合蛋白预测任务中,虽然 TransBind 在训练和验证数据集上未超越其他方法,但在独立测试集 PDB - 186 上,其 MCC 得分达到 0.82,准确率为 90.86%,特异性高达 98.92%,显著优于其他竞争方法。这表明 TransBind 对未知数据具有更强的鲁棒性,能有效避免过拟合。
  • 案例研究:通过对噬菌体 434 OR2/R1 - 69 复合物和人类 PAX3 同源结构域这两个代表性蛋白质的案例研究,直观地展示了 TransBind 在预测 DNA 结合残基方面的优势。与 iProDNA 相比,TransBind 产生的假阳性预测更少,且能准确识别所有真实的结合残基,特异性更高。
  • 运行时间:与依赖进化特征(如 PSSM)的方法相比,TransBind 显著减少了运行时间。例如,在 PDNA - 224 数据集上,生成 ProtTrans 特征耗时不到 5 分钟,推理只需 30 秒,而生成 PSSM 特征则需约 37 小时。

研究结论和讨论部分指出,TransBind 是一种高度准确且快速的方法,能仅从蛋白质的一级序列精准识别 DNA 结合蛋白和结合残基。它的创新性在于整合了全局和局部特征提取器,引入了加权损失函数解决数据不平衡问题,在多种数据集和评估指标上超越了现有方法。该研究展示了蛋白质语言模型在 DNA 结合蛋白预测方面相较于 MSA 的优势,推动了该领域的发展。未来研究可以探索更先进的语言模型(如 ESM - 2)在预测中的应用,拓展 TransBind 在 RNA 结合蛋白预测中的适用性,以及构建包含孤儿和快速进化蛋白质的基准数据集,进一步评估不同方法的性能。这些研究方向将为深入理解蛋白质与核酸的相互作用,以及相关疾病的研究和治疗提供更有力的支持。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号