在生命的微观世界里,基因的表达调控如同精密的交响乐,而 DNA 与蛋白质之间的相互作用则是这场交响乐中关键的音符。DNA 结合蛋白(能与 DNA 发生特异性结合的蛋白质)及其结合残基(DNA 结合蛋白中与 DNA 结合的特定氨基酸残基)在基因调控、DNA 复制、转录和翻译等重要生物过程中发挥着核心作用。准确识别它们,就像是掌握了打开生命奥秘之门的钥匙,有助于深入理解各种生命现象的本质,也为相关疾病的诊断、治疗和药物研发提供关键线索。
然而,传统的实验方法,如基于微阵列的蛋白质微阵列测定、蛋白质结合微阵列和染色质免疫沉淀测序(ChIP-seq)等,虽然能够较为精确地识别 DNA 结合残基,但它们如同笨重的 “巨人”,不仅成本高昂,还耗费大量的时间和人力,使得研究进展缓慢。随着蛋白质数据库的不断丰富和机器学习(ML)技术的飞速发展,利用计算方法预测 DNA 结合蛋白和结合残基成为了新的研究方向。但现有的机器学习方法大多依赖于多序列比对(MSA)得到的进化特征,如位置特异性得分矩阵(PSSM)和隐马尔可夫模型(HMM)轮廓,以及结构信息。这种依赖带来了诸多问题,MSA-based 的进化特征提取耗时费力,对于孤儿蛋白(很少或没有同源物的蛋白质)和快速进化的蛋白质,往往难以获得有效的 MSA,导致这些方法的准确性大打折扣。
在这样的背景下,来自孟加拉国工程技术大学(Department of Computer Science and Engineering, Bangladesh University of Engineering and Technology)的研究人员 Md Toki Tahmid、A.K.M. Mehedi Hasan 和 Md Shamsuzzoha Bayzid 开展了一项具有创新性的研究。他们提出了 TransBind(基于迁移学习的结合预测)这一深度学习框架,旨在解决传统方法和现有机器学习方法存在的问题。该研究成果发表在《Communications Biology》上,为 DNA 结合蛋白和结合残基的预测领域带来了新的曙光。