Nature子刊:新的统计方法改进了基因组分析

【字体: 时间:2022年11月16日 来源:Nature Communications

编辑推荐:

  一种新的统计方法提供了一种更有效的方法来揭示跨越多种条件的基因组数据中具有生物学意义的变化——例如细胞类型或组织。

  

一种新的统计方法提供了一种更有效的方法来揭示跨越多种条件的基因组数据中具有生物学意义的变化——例如细胞类型或组织。

全基因组研究产生了大量的数据,从数以百万计的单个DNA序列,到关于数千个基因中有多少个在哪里表达的信息,再到整个基因组中功能元素的位置。由于数据的数量和复杂性,比较不同的生物条件或不同实验室进行的研究在统计上具有挑战性。

宾夕法尼亚州立大学(Penn State)的统计学副教授李群华(音译)说:“当你有多个条件时,困难在于如何以一种既能在统计上强大又能在计算上高效的方式把数据分析在一起。”“现有的方法在计算上很昂贵,或者产生的结果很难从生物学上解释。我们开发了一种名为CLIMB的方法,它改进了现有的方法,计算效率高,并产生了生物学上可解释的结果。我们对从造血细胞(与血液干细胞相关)收集的三种类型的基因组数据进行了测试,但该方法也可以用于其他‘组学’数据的分析。”

研究人员在11月12日在线发表在《自然通讯》杂志上的一篇论文中描述了CLIMB(复合似然经验贝叶斯)方法。

“在有这么多信息但来自相对较少的个体的实验中,能够尽可能有效地利用信息是有帮助的,”希拉里·科赫(Hillary Koch)说。科赫当时是宾夕法尼亚州立大学(Penn State)的研究生,现在是Moderna的高级统计学家。“能够把所有东西放在一起看,甚至使用相关实验的信息,在统计学上有优势。CLIMB让我们能够做到这一点。”

CLIMB方法使用了两种传统技术的原理来跨多种条件分析数据。一种技术使用一系列条件之间的成对比较,但随着附加条件的加入,解释变得越来越困难。

另一种不同的技术将每个受试者在不同条件下的活动模式组合成一个“关联向量”,例如,一个基因在多种细胞类型中上调、下调或没有变化。关联向量直接反映了条件特异性的模式,易于解释。然而,由于即使只有少数几个条件,也可能有许多不同的组合,因此计算的计算量非常大。为了克服这一挑战,第二种方法对如何简化并不总是正确的数据做了假设。

“CLIMB运用了这两种方法的各个方面,”Koch说。“我们最终分析关联向量,但首先我们使用成对分析来识别可能预先存在的模式。我们不是对数据进行假设,而是使用成对信息来消除数据不支持的组合。这大大减少了可能的模式空间,否则会使计算如此密集。”

在编译可能的关联向量的简化集之后,该方法将跨条件遵循相同模式的主题聚在一起。例如,研究结果可以告诉研究人员,哪些基因在某些细胞类型中集体上调,而在另一些细胞类型中集体下调。

研究人员使用一种名为RNA-seq的技术对他们的方法进行了测试,该技术从实验中收集到的数据可以测量一个细胞中表达的所有基因产生的RNA的数量,以检查某些基因是否有助于决定造血干细胞最终变成哪种类型的细胞。

“与流行的配对方法相比,我们的结果更具体,”李晓燕说。“我们的基因列表更简洁,在生物学上也更相关。”

传统的两两配对方法确定了6 - 7千个感兴趣的基因,而CLIMB方法的范围要小得多,只有2 - 3千个基因,其中至少有1000个基因在两种分析中都被确定了。

宾夕法尼亚州立大学生物化学和分子生物学T. Ming Chu教授罗斯·哈迪森说:“不同的血细胞类型有不同的功能——一些成为红细胞,另一些成为免疫细胞——我们想知道哪些基因更可能参与决定每种不同的细胞类型。”“CLIMB方法提取了一些重要的基因;有些是我们已经知道的,有些是我们已经知道的。但不同的是,这些结果比以前的分析更具体,更可解释。”

研究人员还在另一种实验技术ChIP-seq产生的数据上使用了CLIMB技术,这种技术可以识别基因组中某些蛋白质与DNA结合的位置。他们探索了一种叫做CTCF的蛋白质的结合——一种转录因子,帮助建立细胞核中基因调节所需的相互作用——如何在17个来自同一造血干细胞的细胞群中发生或不发生变化。CLIMB分析确定了不同类别的ctcf结合位点,其中一些揭示了该转录因子在所有血细胞中的作用,而另一些则显示了在特定细胞类型中的作用。

最后,该团队探索了另一项名为DNase-seq的实验技术的数据,该技术可以识别调控区域的位置,以比较38种人类细胞类型中染色质(DNA和蛋白质的复合物)的可及性。

“对于这三个测试,我们想看看我们的结果是否具有生物学相关性,所以我们将我们的结果与独立数据进行了比较,如组蛋白修饰的高通量测序和转录因子脚印的研究。科赫说。“在每一种情况下,我们的结果都与这些其他方法一致。接下来,我们想要提高我们方法的计算速度,增加它可以处理的条件的数量。例如,可以获得更多细胞类型的染色质可访问性数据,所以我们希望增加CLIMB的规模。”

除了李、科赫和哈迪森,研究团队还包括宾夕法尼亚州立大学的谢丽尔·凯勒、项冠珏和贝琳达·贾丁、中国西安交通大学的张飞鹏和加拿大英属哥伦比亚大学的王一成。这项研究得到了美国国立卫生研究院(National Institutes of Health)的支持,包括美国国立普通医学科学研究所、美国国立人类基因组研究所、美国国立糖尿病、消化和肾脏疾病研究所。

文章标题

CLIMB: High-dimensional association detection in large scale genomic data

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号