-
生物通官微
陪你抓住生命科技
跳动的脉搏
PacBio单分子测序技术揭示玉米转录组复杂性
【字体: 大 中 小 】 时间:2016年12月28日 来源:
编辑推荐:
玉米是一种重要的用于阐明转录网络的遗传模型,而mRNA转录本完整结构的不确定性却限制了这一系统中的研究进展。本文中,纽约冷泉港实验室的DoreenWare博士和她的同事们采用PacBio单分子实时测序技术,从6个不同的玉米组织中得到了111,151个转录本,捕捉到了玉米RefGen_v3基因组中注释的~70%的基因。
玉米是一种重要的用于阐明转录网络的遗传模型,而mRNA转录本完整结构的不确定性却限制了这一系统中的研究进展。本文中,纽约冷泉港实验室的DoreenWare博士和她的同事们采用PacBio单分子实时测序技术,从6个不同的玉米组织中得到了111,151个转录本,捕捉到了玉米RefGen_v3基因组中注释的~70%的基因。其中大部分转录本(62,547个,57%)是全新的,有的是一些已知基因的组织特异性的转录异构体,有3%是来自全新基因位点的转录本。鉴定到的转录本已经改善了已有的基因模型。
平均在所有的六个组织中,90%的剪接点得到了对应组织中的短读长数据的支持。另外,作者发现了很多全新的长链非编码RNAs和融合转录本,并发现DNA甲基化对于产生多种多样的转录异构体中的重要作用。实验结果表明,对玉米B73转录组的完整描述还远未完成,玉米的基因表达比我们之前想象的要复杂得多。
作为三大主粮之一的玉米,既是重要的粮食作物,也是重要的基因表达研究模型。来自冷泉港实验室的研究团队发现,玉米中的基因表达远比我们之前想象的要复杂的多。
玉米的基因组草图于2009年完成并释放,采用了*短重叠群法组装的BAC文库。尽管基于短读长测序的数据在近几年不断积累,但都未能提供每个RNA的全长(full-length, FL)序列,因此限制了其用于定义选择性剪接体。并且,有的时候短读长产生的低质量转录本会导致错误的注释。
采用PacBio RS II平台,Ware博士及其同事对来自玉米自交系B73的六个组织—根,花粉,胚,胚乳,幼雄穗和幼雌穗进行了转录组测序。
通过Barcode建库方案,每种组织来源的RNAs在反转录为cDNA的时候被引入一种特定序列的Barcode,混合后通过片段化筛选构建6个文库(<1, 1–2, 2–3, 3–5, 4–6 和>5 kb)以避免loading bias。建好的Barcode SMRTBell文库在PacBio RS II平台上采用P6-C4试剂进行测序,实验总共使用了47个SMRT Cells,记录3-4小时的视频。
实验发现了111,151中独特的转录异构体,对应大约27,000个基因。这个数量接近参考基因组注释中转录本数量的两倍。其中3%的异构体来源于全新基因位点的全新转录本。57%的异构体来自于已有的注释基因的全新转录本。
图1 PacBio与RefGen_v3中Isoform的比较
图2 RefGen_v3与PacBio Iso-Seq之间Isoforms数量/基因的比较
图3 RefGen_v3与PacBio 数据中Isoform 长度的比较,数据显示PacBio数据中的转录本长度远高于RefGen_v3中的转录本长度
图4 维恩图显示六个组织中所有PacBio Isoform的重叠情况
图5 全新转录本在6个不同组织中的重叠情况
图6 图示5种选择性拼接模式以及不同组织中各种拼接模式所占的比例
转录因子的转录异构体产生功能性的变体。玉米的V3注释中包含来自于57个家族中的2,624个注释的转录因子(transcription factors, TFs)。使用PacBio数据,作者发现了其中53个家族中的全新的isoforms,使得TF isoforms的数量增长到了5,423个。
长读长转录组数据可以帮助校正错误的基因模式—Ware博士及其团队关注两个注释清晰的玉米基因,它们可能在参考基因组中被错误注释。比如,有文献报道,RGH3基因因为错误的基因组组装导致错误注释,在PacBio数据中,作者发现了RGH3基因的四种isoform,其中一种与已报到的注释有类似结构,其余三个都是全新的。另一个例子是CSR1基因,该基因在RefGen_v3中没有注释的基因模型,而作者的研究表明确实存在此基因。PacBioIso-Seq数据表明有两种CSR1基因的isoform,一种在根中,一种在雄穗中。
LncRNA的发现—*近基于Illumina短读长测序技术,在玉米中发现了1,704个高可信度的长链非编码RNA (lncRNA),其平均长度为463bp。通过搜索单分子长读长序列发现了候选的12,226个>200bp的lncRNA。为了获得一组高可信度的lncRNA的基因,作者去掉了带有超过100个密码子的ORFs的转录本,然后用BLASTX筛选剩余的1290个候选lncRNA,又去掉了412个高粱,水稻,短柄草属编码蛋白的同源基因,得到了878个lncRNA,其中有11个与之前发现的lncRNA相对应,剩余的867个都是全新的高可信度的lncRNA,平均长度达到1.1kb。
图7 已知与新发现的LncRNA的长度比较
融合转录本的发现—本文中作者发现了1,430个融合转录本, 其产生涉及到拼接机制,这意味着可能与不同基因的反式剪接或体细胞染色体重排形成的嵌合基因的拼接有关。基因功能聚类分析发现,融合转录本中*多的是与分子功能类别中的营养物质储藏活动以及生物过程类别中的代谢/细胞过程相关。
PacBio isoforms 与短读长拼接结果的比较—在玉米中用单分子长读长测序发现的大量选择性拼接事件提供了一个很好的评估短读长重建质量的方法。作者对Cufflinks41和Trinity43两种拼接策略进行了评估。结果发现,每种拼接工具只能重建很小一部分的PacBio Isoforms (Cufflinks: 22%; Trinity: 8%)。
图8 PacBio Iso-Seq转录本被短读长拼接的转录本验证的数量,蓝色显示的是拼接的转录本与Iso-Seq转录本完全匹配的数量,即外显子和donor-acceptor 位点数量均完全相同的情况。
图9 两种短读长拼接软件重建的Iso-Seq转录本的比例可以作为isoform复杂度评估的参数
Isoform的甲基化—以前对RefGen_v3中数量有限的剪接基因的甲基化研究发现,剪接位点的甲基化抑制选择性剪接。为了检测甲基化水平与isoform产生之间的关系,作者对各种isoform进行了DNA甲基化分析。结果表明,CHG甲基化主要富集在acceptor位点,而CG及计划主要富集在donor位点。Acceptor位点的CHG甲基化抑制选择性剪接,而donor位点的CG甲基化促进选择性剪接。作者还对lncRNA和non-lncRNA的isoform及其上下游各1kb范围进行三种类型的DNA甲基化水平分析。DNA甲基化在lncRNA和non-lncRNA的转录起始位点和终止位点的甲基化程度较低;non-lncRNA在基因主体内具有较高的CG甲基化,而lncRNA具有较高的CHG甲基化。
图 10 lncRNA和non-lncRNA的DNA甲基化水平比较
小结:PacBio单分子实时测序技术的长读长优势被广泛引用,本文充分利用其技术特点,无需拼接即可发现全长转录本,揭示了全新的玉米转录组信息,让研究人员更准确全面的了解复杂基因组中的基因表达模式。
原文信息:Wang, Bo, et al. "Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing." Nature Communications 7 (2016).