业界最全的转录组常见问题解答

业界最全的转录组常见问题解答

2018-03-16 09:26:22 56

转录组常见问题答疑

1、提取植物、动物等来源的 mRNA,哪种提取方法更有效?
RNA 提取质量的优劣主要取决于样品本身的质量,幼嫩组织提取难度小于老化、降解组织;针对提取方法,一般Trizol 试剂针对大多数的动植物组织样品都能获得较好的提取效果,;对于多糖多酚含量特别丰富的植物组织,如棉花,石斛等,可采用pBIOZOL 试剂或 CTAB-PVP 结合 LiCl 沉淀进行提取;对于脂肪组织可采用RNeasy lipid mini kit 进行提取。

2、转录组建库过程中是用随机引物进行反转录,还是用 oligo(dT)做反转录?
常规建库采用随机引物进行反转录。

3、与基因芯片相比,转录组高通量测序有什么优势?
基因芯片是用已知序列的探针和样本mRNA进行杂交来获得mRNA的序列信息的,核酸杂交的背景噪音很高,存在交叉杂交现象。转录组是直接对样本mRNA反转录进行测序,能够发现很多新的mRNA;转录组测序对基因表达上调或下降的检测范围能够达到几万倍,远比基因芯片的百倍左右要灵敏,而且在有参考基因组的情况下,通过转录组测序您还可以分析可变剪切、基因结构变异、全基因组水平基因表达丰度等情况。

4、转录组测序后有何验证方法?
转录组测序后可通过实时荧光定量 PCR(qRT-PCR)技术来验证测序结果。可通过相关性系数计算两者R2

5、生物学重复设置几个,及注意事项?
实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。重复之间的Spearman correlation值大于大于0.8。定量基因表达推荐6G测序数据量;研究可变剪接则需要更深的测序;推荐10G测序数据量。保证样品同时处理、RNA同时提取、同时构建文库和上机测序,从而保证结果没有受到试验中处理批次的影响。

6、用于高通量测序的RNA样本检测标准?
(1) 琼脂糖凝胶电泳检测 RNA 是否有污染及其降解程度;
(2) Nanodrop 检测 RNA 的纯度(OD260/280)、核酸吸收峰是否正常,及初步的浓度定量;
(3) Qubit 对 RNA 浓度进行精确定量;
(4) Agilent 2100 精确检测 RNA 的完整性,包括:RIN 值、28S/18S、图谱基 线有无上抬、5S 峰。

7、转录组文库构建的方法?
(1) 用带有 Oligo(dT)的磁珠富集真核生物 mRNA。
(2) 加入阳离子(Mg2+)将 mRNA 进行随机打断。
(3) 以 mRNA 为模板,用六碱基随机引物(random hexamers)合成第一条 cDNA 链,然后加入缓冲液、dNTPs、RNase H 和 DNA polymerase I 合成 第二条 cDNA 链,利用 AMPure XP beads 纯化 cDNA。
(4) 纯化的双链 cDNA 再进行末端修复、加 A 尾并连接测序接头,然后用 AMPure XP beads 进行片段大小选择。
(5) 最后通过 PCR 富集获得最终的 cDNA 文库。

8.有参转录组的主要分析内容?
与指定的参考基因组进行序列比对,得 到的 Mapped Data,进行插入片段的长度检验、随机性检验等文库质量评估;进行 可变剪接分析、新基因发掘和基因结构优化等结构水平分析;根据基因在不同样品 或不同样品组中的表达量进行差异表达分析、差异表达基因功能注释和功能富集等 表达水平分析。

9. 什么是有参转录组比对效率?
比对效率指 Mapped Reads 占 Clean Reads 的百分比,是转录组数据利用率的最 直接体现。比对效率除了受数据测序质量影响外,还与指定的参考基因组组装的优 劣、参考基因组与测序样品的生物学分类关系远近(亚种)有关。如果参考基因组 选择合适,相关实验不存在污染,测序序列与参考基因组比对的效率正常情况下会 高于 70%。

10.如何通过信息分析的方法验证文库的质量?
(1)通过检验插入片段在基因上的分布,评估 mRNA 片段化的随机性、mRNA 的降解情况;
(2)通过插入片段的长度分布,评估插入片段长度的离散程度;
(3)通过绘制饱和度图,评估文库容量和 Mapped Data 是否充足。

11.如何对给定基因进行完整全面的基因注释?
使用 BLAST软件将发掘的新基因与 NR,Swiss-Prot,GO[,COG, KOG[,Pfam,KEGG数据库进行序列比对,使用 KOBAS2.0 得到新基因的 KEGG Orthology 结果,预测完新基因的氨基酸序列之 后使用 HMMER软件与 Pfam 数据库比对,获得新基因的注释信息。

12.转录组的基本分析方法?
两两处理间的差异分析, 差异表达分析得到的基因集合叫做差异表达基因集,使用“A_vs_B”的方式命名。根据两(组)样品之间表达水平的相对高低,差异表达基因可以划分为上调基 因(Up-regulated Gene)和下调基因(Down-regulated Gene)。上调基因在样品(组) B 中的表达水平高于样品(组)A 中的表达水平;反之为下调基因。在差异表达基因检测过程中,将 Fold Change≥2 且 FDR<0.01 作为筛选标准。差 异倍数(Fold Change)表示两样品(组)间表达量的比值。错误发现率(False Discovery Rate,FDR)是通过对差异显著性 p 值(p-value)进行校正得到的。

13.全转录组与转录组的差异?
全转录组相对于转录组,增加了:
miRNA
MicroRNA (miRNA)是一类内生的、长度约为18-30个核苷酸的小RNA,miRNA的作用途径包括mRNA降解、翻译抑制、异染色质形成,来调控生物体的生长发育和非生物胁迫响应。这种复杂的调节网络通过一个miRNA来调控多个基因的表达,也可以通过几个miRNA来精细调控某个基因的表达。
lncRNA
lncRNA是一类长度大于200 nt的非编码RNA,已经成为了研究的热点。 lncRNA广泛存在于各种生物体内,能够在表观遗传、转录以及转录后等多种水平上对生命活动进行关键性的调控。lncRNA测序是通过高通量测序技术及生物信息学方法在整体水平上揭示样品中lncRNA的数量、种类、表达差异。
circRNA
circRNA是一类非线性RNA,与更好的已知线性RNA不同,它们形成共价闭合的连续环,即在环状RNA中,正常存在于RNA分子中的3'和5'端已经连接在一起。 这个特征赋予了环状RNA的许多特性,其中许多仅在最近才被确定。例如作为miRNA的海绵,绑定miRNA形成miRNA-mRNA合物,调控基因的转录。circRNA测序能够在整体水平上解析样品中circRNA的分类信息、表达量信息等,通过分析其与miRNA的互作关系探讨ceRNA调控机制。

植物生长灯|LED组培灯|LED花期灯

14.什么是转录组测序?

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有mRNA的总和。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。

15.为什么进行转录组研究而不是基因组研究?

转录组即特定材料在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组研究是基因功能及结构研究的基础和出发点。应用新一代高通量测序,能够全面快速地获得某一物种特定器官或组织在某一状态下的几乎所有转录本。更为重要的是,转录组研究所需要的费用,与基因组研究相比,前者只有后者的几十分之一,因此,进行全转录组方面的研究比起全基因组方面的研究具有更强的可实施性。尤其针对课题经费不足,又以没有Referencesequence物种为研究对象的科研工作者,更是如此。

16.转录组测序可以同时检测mRNA、miRNA及其他非编码RNA?

理论上技术是可行的,但是通常会根据测序对象长度的不同,在测序建库的时候会选择不同的片段大小,测序读长也会有不同。一般来讲,如果要进行microRNA测序的话,通常将microRNA分离出来,单独进行测序可。mRNA测序,通常建库时选择200-300bp大小片段,采用125PE/150PE测序。而长链非编码RNA(lncRNA)存在正向转录和反向转录,所以常采用链特异性建库测序。

17.测序深度和覆盖度是什么意思?

测序深度:测序得到的总碱基数与待测转录组大小的比值。

覆盖率:指测序获得的序列占整个转录组的比例。

18.Q20、Q30所代表的碱基质量含义?

为了保证数据质量,要在信息分析前对原始数据进行质量评估。每个碱基测序错误率是通过测序碱基质量值(Phred score,Qphred)通过公式转化得到,而测序质量值是在碱基识别过程通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:

19.Paired-end与Single-end表示什么意思?

单端测序(Single-read):是指测序引物结合位点只连接到待测片段的一端,然后末端加上接头,将片段固定在flowcell上形成簇,上机测序单端读取序列。

双端测序(Paired-end):是指在构建待测文库时在两端都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。

通常情况下转录组测序都采用的是Paired-end测序法。

20.原核生物与真核生物在进行转录组测序文库构建时有什么区别?

在原核生物中,mRNA只占全部RNA的1-5%,其余绝大部分是核糖体RNA(rRNA),因此若要测序mRNA,首先必须先将mRNA纯化出来,然而,原核生物并不像真核生物mRNA具有polyA的结构,因此,无法直接利用oligoT将mRNA纯化出来,如果拿total RNA进行测序,那么测序的效率一定会非常差,因为大部分的序列都来自rRNA。目前,提高原核生物中mRNA的量,最主要的方式是去除total RNA中rRNA。

21.利用HiSeq进行测序时,一个Lane能输出多少数据?

目前公司采用HiSeq2500或4000测序,Hiseq2500一般一个lane至少可产生60Gclean data,Hiseq4000一般一个Lane至少可产生75Gclean data。

22.一般动植物进行转录组测序,要测多少数据量,如何估测?

由于转录组测序需要进行表达量的分析,因此不推荐使用覆盖度,在确定测序量时,我们以产生的reads数作为依据。转录组测序所需的测序量随物种转录组大小的不同而有所差异。而转录组的大小受基因数目和丰度双重影响,不同物种间变化很大。因此在测序之前,需要对转录组的大小进行评估。针对有参考基因组的物种,可通过分析基因组信息,统计编码基因个数及其碱基数来评估转录组的大小,同时也可参考相近或相关物种转录组研究的文章,针对无参考基因组的物种,只能参考相近物种的转录组大小。具体的数据量可以咨询当地销售。

23.转录组测序一定要设置生物学重复吗,如果样品间差异不大还需要设置吗?

是的。一般应该重复3次以上,具体情况需要根据具体实验来决定。样本数量越多对于统计筛选越有利。

24.转录组测序对样品有什么要求吗?样品用量是多少?

总RNA量至少需要4μg;组织量至少为300mg,细胞量至少为106,全血样本建议2ml并分离白细胞。所有样品都采用干冰运输,偏远地区应保证干冰量足够。

25.样品该如何收集与处理?

针对不同类型的样品收集与处理,我们专门整理了《样品采集操作指南》,客户可以自行在我们的官网下载或者向当地的销售索取。

26.关于转录组De novo分析:你们采用什么软件进行拼接,使用的参数是什么?

De novo拼接是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼接成tran。我们使用Trinity(version:trinityrnaseq_r20131110)软件paired-end的拼接方法,对样本的有效reads合并进行de novo拼接,取每个Loci(comp*_c*_)下最长的转录本作为Unigene,以此作为后续分析的参考序列。

使用参数为:Trinity.pl--seqType fq --min_contig_length 200 --JM 400G --left $R1 --right $R2--SS_lib_type RF --output trinity_out_dir --CPU 80。

28.转录组测序什么时候采用De novo分析测序,什么时候采用Reference分析策略?

对于有参考基因组信息,而且拼接质量较好,注释信息较完整的物种可采用Reference分析策略;对于无参考基因组信息,或者参考基因组拼接质量不好,注释信息不完整的物种,采用Denovo分析策略。