Ayu:揭秘海洋分泌蛋白组的智能利器,开启海洋生物学新视野

《Nature Communications》:

【字体: 时间:2025年03月22日 来源:Nature Communications

编辑推荐:

  为解决海洋分泌蛋白研究缺乏有效方法的问题,研究人员开展了利用机器学习工具结合蛋白质组进化适应特征识别海洋分泌蛋白的研究。结果开发出 Ayu 工具,其性能优于现有软件。这有助于更好地了解海洋分泌蛋白组,推动海洋生物学和生物地球化学研究。

  在神秘的海洋世界里,微生物如同幕后 “魔法师”,驱动着地球上至关重要的元素循环,从大气氧气的产生到有机碳的再矿化,以及氮、磷、硫的循环,都离不开它们的 “魔法操作”。这些微生物通过向环境中分泌蛋白质(即分泌蛋白组,secretome)来与周围环境和群落互动,这些蛋白在环境中长时间保持活性,参与众多关键过程,比如营养物质的获取、细胞间的通信与竞争等。
然而,目前对海洋分泌蛋白组的研究却困难重重。大多数海洋原核生物难以在实验室条件下培养,基于细菌培养的蛋白质组学检测方法对海洋样本的通量较低,且回收的物质大多属于病毒粒子。即使在受控环境下进行蛋白质组学检测,也很难区分分泌蛋白和细胞裂解产物。此外,虽然人工智能和机器学习的发展催生了许多预测蛋白质亚细胞定位的工具,但这些工具大多存在局限性,如适用范围窄、依赖同源搜索导致通量受限等,使得研究人员在海量的组学数据面前常常束手无策。

为了突破这些困境,来自奥地利维也纳大学真菌与生物地球化学海洋学小组、上海海洋大学深渊科学与技术上海工程研究中心的研究人员 Asier Zaragoza-Solas 和 Federico Baltar 开展了深入研究,相关成果发表在《Nature Communications》上。

研究人员主要运用了以下关键技术方法:首先,精心收集了大量来自海洋环境的细菌蛋白质序列数据,同时选取 ESKAPEE 病原体作为对照数据集。接着,通过多种统计分析方法,如 Kruskal–Wallis 检验、Dirichlet 回归分析等,探究氨基酸组成(AAC)的差异。然后,利用自行编写的脚本提取多种蛋白质特征,并运用 xgBoost 算法训练多分类和有序分类模型,最后将模型应用于 Tara Oceans 的元基因组和元转录组数据集进行验证。

下面来看具体的研究结果:

  1. 亚细胞定位和栖息地间的 AAC 差异:通过加权对数比分析发现,从细胞质蛋白到细胞外蛋白,氨基酸组成存在梯度变化。与非海洋蛋白相比,海洋细胞外和周质蛋白的负电荷和芳香族氨基酸增加,部分正电荷和疏水性氨基酸减少。这种差异受海洋环境显著影响,尤其是盐度,其作用在细胞外蛋白的氨基酸组成变化上体现得更为明显。
  2. 分类群间的 AAC 差异:不同分类群的细胞外蛋白氨基酸分布不同,这可能源于细菌不同的营养策略。例如,富营养细菌 Alteromonas 和贫营养细菌 Prochlorococcus 在细胞外蛋白的投入产出比上存在差异,反映出不同营养策略下细胞外蛋白的选择压力不同。
  3. 由 AAC 差异导致的蛋白质性质差异:随着蛋白质所处位置向细胞外靠近,等电点(pI)向酸性端偏移。细胞外和周质蛋白的 ATP 成本相对细胞质蛋白有所降低,但该差异因门的不同而有所不同。细胞外蛋白的氮、硫含量低于细胞内蛋白,且其平均碳含量也较低。此外,海洋数据集中细胞外蛋白比细胞内蛋白更长,但分子量并未增加。
  4. 序列顺序效应:二肽 / 三肽组成以及序列自相关描述符(如部分准序列顺序(pQSO)和伪氨基酸组成(pPAAC))能够反映氨基酸在序列中的分布信息,对蛋白质亚细胞定位预测有重要作用。结合至少 20 个自相关测量值可有效区分亚细胞位置。
  5. 机器学习模型设计与验证:研究人员使用 xgBoost 算法构建了多分类和有序分类模型 Ayu,并与 pSORTb 3.0 和 BUSCA 进行比较。结果显示,Ayu 在马修斯相关系数(MCC)和 Kappa 评分上显著优于后两者,在预测细胞外蛋白时,召回率和精确率也有明显提升。
  6. 在真实海洋数据集(Tara Oceans)中的应用:将 Ayu 应用于 Tara Oceans 数据集,发现约 12.5% 的非整合膜蛋白分泌到周质或细胞外环境,与先前研究报道相符。Ayu 还能准确预测病毒蛋白的定位,且发现许多无信号肽的细胞外蛋白,这些蛋白通过不同分泌途径分泌,参与多种功能。此外,研究还发现中上层水样中分泌蛋白基因的表达水平高于表层水样。

研究结论和讨论部分指出,该研究揭示了海洋环境对蛋白质的显著影响,基于此开发的 Ayu 工具在预测海洋来源蛋白质的亚细胞定位方面性能卓越,超越了现有方法。Ayu 仅依赖信号肽、跨膜区域和基于序列的描述符,无需频繁更新,具有独特优势。但使用时需注意其局限性,如不适用于跨膜蛋白、细胞壁附着蛋白以及真核生物蛋白质的预测等。

这项研究整合了海洋微生物的基因组、转录组、蛋白质组和生态学特性研究,结合人工智能技术,极大地拓展了对海洋分泌蛋白组的认知。Ayu 工具的应用有望为海洋生物学和生物地球化学研究开辟新方向,特别是在微生物群落相互作用等研究较少的领域。此外,研究中结合生物适应性与人工智能工具的方法,也为其他环境下微生物生态系统服务的研究提供了新思路,有助于深入了解环境变化对微生物的影响,在全球气候变化背景下具有重要意义。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号