-
生物通官微
陪你抓住生命科技
跳动的脉搏
拨开重重迷雾,新方法带来更真实的单细胞RNA测序数据
【字体: 大 中 小 】 时间:2022年08月11日 来源:Kyoto University
编辑推荐:
最近,京都大学人类生物学高级研究所的研究团队开发出一种新的数学方法,可以消除噪声,帮助人们从单细胞RNA测序数据中提取出清晰的信号。
了解细胞中RNA的概况可以显示哪些基因是活跃的,方便研究人员推测细胞在做什么。高通量测定RNA的技术(RNA测序)在过去十年中已经成为一种标准技术。如今,技术进一步发展,能够在单细胞水平上对数千个细胞并行开展RNA测序,这加速了生物医学的进步。
然而,微量样本的RNA定量也带来了巨大的技术挑战。即使采用最先进的设备,单细胞RNA测序产生的数据仍包含大量的检测错误,包括所谓的“drop-out效应”。此外,在大量基因的计算中,即使是很小的误差也会迅速叠加起来,使得有用的信息丢失在信号噪声中。
最近,京都大学人类生物学高级研究所的研究团队开发出一种新的数学方法,可以消除噪声,帮助人们从单细胞RNA测序数据中提取出清晰的信号。新方法成功减少了数据中的随机采样噪声,能够更准确地了解细胞的活动。这项研究成果发表在《Life Science Alliance》杂志上。
论文的主要作者Yusuke Imoto解释说:“每个基因代表RNA测序数据中的一个不同维度,这意味着必须收集数万个维度并开展分析。即使一个维度中最轻微的噪声也会对下游数据分析产生重大影响,导致重要信号丢失。这就是我们称其为‘维度灾难’的原因。”
为了打破维度灾难(COD),研究团队开发出一种新的降噪方法RECODE,从单细胞RNA测序数据中去除随机采样噪声。RECODE采用高维统计理论来恢复准确的结果,即使表达水平很低的基因也适用。
首先,研究人员在广泛研究的人类外周血数据上测试了他们的方法。他们证实,RECODE成功消除了维度灾难,揭示出的单个基因表达模式接近其期望值。
其次,与其他先进的分析方法进行比较时,RECODE的优势在于能够更真实地代表基因激活。此外,RECODE比其他方法更简单易用,无需依赖参数或使用机器学习来进行计算。
最后,研究团队在一个来自小鼠胚胎细胞的复杂数据集上测试了RECODE,该样本包含了许多不同类型的细胞,具有独特的基因表达模式。其他方法让结果变得难以区分,而RECODE却能清晰分辨各种细胞的基因表达水平,即使细胞很罕见。
Imoto总结道:“单细胞RNA测序的数据分析在技术上仍然具有挑战性,而且这是一项不断发展的技术,我们的RECODE算法朝着揭开单个细胞的真实行为迈出了一大步。在我们的贡献下,单细胞RNA测序数据分析可能成为一个强大的研究工具,对许多生物领域都产生巨大的影响。”
另一名主要作者、京都大学的Tomonori Nakamura补充说:“通过释放单细胞RNA测序的真正力量,RECODE将帮助研究人员发现未知的罕见细胞类型,在基础研究以及临床应用和药物发现中开发和建立新的研究领域。”
RECODE计算程序(Python/R code)可从GitHub(https://github.com/yusuke-imoto-lab/RECODE)网站上获得。
原文检索
Yusuke Imoto, Tomonori Nakamura, Emerson G. Escolar, Michio Yoshiwaki, Yoji Kojima, Yukihiro Yabuta, Yoshitaka Katou, Takuya Yamamoto, Yasuaki Hiraoka, Mitinori Saitou. Resolution of the curse of dimensionality in single-cell RNA sequencing data analysis. Life Science Alliance Aug 2022, 5 (12) e202201591; DOI: 10.26508/lsa.202201591