《BMC Bioinformatics》:scSMD: a deep learning method for accurate clustering of single cells based on auto-encoder
编辑推荐:
在单细胞 RNA 测序(scRNA-seq)数据分析中,细胞聚类面临高维、稀疏数据等挑战。研究人员开展了 scSMD 深度学习模型用于单细胞数据聚类的研究。结果显示,该模型能精准分类,优于其他模型。其为单细胞数据分析提供新框架,有助于揭示生物过程和疾病机制。
在生命科学的微观世界里,
单细胞 RNA 测序(scRNA-seq)技术就像一把神奇的钥匙,打开了探究细胞奥秘的大门。它能在单细胞水平上对整个基因组或转录组进行分析,帮助科学家们识别生物体内的细胞多样性,深入了解细胞的异质性和组织系统的复杂性。然而,这把钥匙也遇到了 “锁芯生锈” 的难题。scRNA-seq 产生的数据具有高维度、高噪声和稀疏性的特点,这使得准确识别和表征细胞状态变得异常困难,就好比在一堆杂乱无章的拼图碎片中找到正确的组合方式。而且,细胞聚类作为 scRNA-seq 数据分析的关键步骤,其质量直接影响下游分析的准确性。传统的聚类方法,如层次聚类、谱聚类和 k-means 等,在处理大规模 scRNA-seq 数据集时存在可扩展性限制;流行工具 Seurat 和 SCANPY 使用的算法容易陷入局部最优解;其他一些深度学习模型也各有优缺点。为了解决这些问题,来自上海理工大学、上海大学、上海交通大学医学院附属瑞金医院等机构的研究人员展开了深入研究。他们提出了一种名为 scSMD 的深度学习模型,相关研究成果发表在《BMC Bioinformatics》上。
研究人员为开展这项研究,运用了多种关键技术方法。首先,对多个单细胞 RNA 测序数据集进行了预处理,包括对细胞和基因的严格筛选、数据归一化、对数转换以及高可变基因的识别等,确保数据的高质量。然后,开发了基于负二项(NB)模型的自动编码器网络,通过设置不同的损失函数进行训练。同时,引入了多孔扩张注意力门模块,利用不同扩张率的卷积层捕获多尺度数据特征。还构建了 CellNet,并分两个阶段进行训练,以增强细胞间相似性的学习。
研究结果如下:
- 比较实验:研究人员将 scSMD 模型与其他六个模型在多个生物数据集上进行比较,重点评估了它们在细胞注释任务中的归一化互信息(NMI)分数和调整兰德指数(ARI)。结果显示,scSMD 模型在所有测试数据集上均表现出色,取得了最高的 NMI 分数和 ARI 分数。例如,在 Bhattacherjee 数据集上,scSMD 模型的 NMI 分数达到 0.9401,在骨肉瘤数据集中也优于其他模型。这表明 scSMD 模型具有强大的聚类精度和高度的适应性123。
- 消融实验:为了进一步优化细胞聚类模型,研究人员对多孔扩张注意力门模块进行了消融实验,测试了不同扩张率组合对模型性能的影响。结果发现,扩张率组合(4,6,8,10)在多个数据集上表现最佳,这不仅证实了所选扩张率配置的必要性,还凸显了该模块在提高模型对复杂数据集性能方面的有效性456。
研究结论和讨论部分指出,scSMD 模型有效解决了单细胞 RNA 测序数据的高维度和固有稀疏性问题。该模型通过多孔扩张卷积层自适应调整感受野大小,能够在多个尺度上捕获基因相互作用,且不会显著增加计算成本,适用于大规模数据分析。基于负二项分布的损失函数有助于处理 scRNA-seq 数据中的过多零计数,降低噪声,提高聚类的稳健性。注意力机制通过多孔扩张注意力门选择性地强调关键基因表达特征,减少无关信息的影响,显著提高了注释准确性和泛化性能。scSMD 模型在处理高维、嘈杂和稀疏数据环境时表现出更好的稳健性,能够更准确地识别细胞类型,为单细胞 RNA 测序数据分析提供了一个强大而可靠的工具,对深入了解生物过程和疾病机制具有重要意义。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》