纳昂达科技欢迎您!联系电话:400-8717-699
暂无图片
您当前的位置:天天彩票下载app > 小纳专题 > 测序专区

测序专区

二代测序中Duplication Rate杂谈 (一)

感谢阅尔基因罗俊峰博士,陈云地博士授权转载(有修改)。如需转载,需征得原文作者同意。

-------前方长文预警-------


-------阅读需要15分钟-------

什么是Duplication?



DNA分子多样性是影响Duplication rate的本质因素。减少PCR循环是降低Duplication rate的有效措施。由于随机事件的存在,二代测序各个环节都存在影响Duplication rate的因素。本文将深入探讨Duplication相关内容。

Duplication rate的计算公式如下:

Duplication Rate=1 - Unique Reads / Total Reads

本文中,相关的概念解释说明如下:

相关概念


Reads:二代测序平台对芯片上的Cluster连续顺序读取75、150或300个碱基信息的过程。Reads除记录碱基信息外,还包含每个碱基的质量标签及其它附加内容。

Cluster:在二代测序芯片表面或单个磁珠表面,由单个DNA模板生成的数百至数千个DNA分子的集合,类似单个细菌在LB培养基表面生成的单克隆菌落。

Duplication Reads:多个完全相同的DNA片段形成多个Cluster,产生的Reads信息也完全相同,称为Duplication Reads。

完全相同的DNA片段:指这些片段在参考基因组中的起始、终止位置以及序列信息都一样,被称为“三一样”。


“三一样”片段来源

如果没有完全相同的DNA片段,也就不会出现Duplication Rate,“三一样”片段源于以下几个地方。

01

Taq酶类介导的PCR

PCR过程本身就是对DNA分子的复制,是完全相同的DNA片段的主要来源。在靶向测序过程中,无论是建库时还是捕获后都不可避免地有PCR过程。

02

Phi29,Bst酶类介导的等温扩增

滚环扩增或链置换扩增可较为均一地扩增全基因组。某品牌单细胞DNA扩增就是用的等温扩增。等温扩增的产物均为结构复杂的大分子,进入NGS流程时仍需要被打断。由于等温扩增效率较高,可省去后续的PCR过程。

03

片段化过程

无论用超声波打断等物理手段还是酶切等生物手段,都有可能获得“三一样”片段。

片段化过程与PCR过程产生的“三一样”片段有着本质的区别,前者源于同源染色体,后者源于同一染色体上的同一条单链分子。分子标签可以给“三一样”片段加上“条形码(Barcode)”,甚至能利用Duplex原理给“三一样”片段的正负链加上不同的分子标签,人为产生不一样的片段(详情请参考NGS接头暗语)。

04

基因组的重复序列

基因组中的SINE、LINE、Alu等重复序列含量不低,它们在片段化过程中很容易形成“三一样”片段。

05

同一个片段的正负链

建库时如果未利用“成对的”分子标签对文库分子正负链进行标记,正负链就是一对天然的“三一样”片段。


影响Duplication rate的因素

样本来源、样本片段化、文库构建以及PCR扩增都会影响二代测序结果中的Duplication rate。下面我们将对引起Duplication的因素进行深入探讨。

样本来源

01

FFPE 

FFPE样本由于保存条件的特殊性,存在交联、胞嘧啶脱氨成尿嘧啶、物理损伤等问题,其DNA的扩增较其它样本(血液、组织、体液,常温条件或者冷冻条件)更困难(详情请参考FFPE那些事儿(一))。这意味着在起始量(Input)和连接效率相同的情况下,FFPE样本需要发生更多的PCR循环,这也导致了其Duplication rate的升高。


市面上有修复FFPE DNA的产品。推荐FFPE样本在进入NGS流程前进行质检,常见的参数有DIN(DNA Integrity Number)和Q-score(Quality score)(详情请参考FFPE那些事儿(二))。

02

cfDNA / ctDNA

cfDNA的断裂位置据说具有一定的模式,意味着断裂不是随机的,具有偏向性。自然产生的cfDNA与人工随机打断形成的cfDNA标准品差别较大,自然cfDNA的分子多样性可能较差,但连接效率更胜一筹。人工cfDNA由于存在物理损伤,即使进行末端修复也会影响其连接效率(具体可以参考Swift公司的一些说明[1])。需要注意的是,这里强调的是“酶切损伤”比“物理损伤”更容易修复,并不是比较Blunt-end或者Nick-end的连接效率

另外,自然cfDNA集中在165bp左右,可能较为集中的片段分布比物理打断的片段分布更不容易丢失片段,自然cfDNA的分子多样性可能稍差但连接效率较高,而且起始量较低,理论上可能引起Duplication rate进一步升高。这时便体现出cfDNA建库好搭档“分子标签”的优势。建库过程中分子标签对文库分子“单链”或“姐妹链”的标记使得在后续数据分析中,相同的分子标签形成“家族”(Family),对其进一步分析,Duplication reads能作为被分析的对象,共同判定稀有突变的存在。

03

甲基化DNA

经过亚硫酸氢盐处理的DNA,可以认为碱基类型都少了一种,分子多样性不但下降,更是引入了尿嘧啶,需要用尿嘧啶耐受的扩增酶,外加一些建库方式有着明显的GC偏好性,最后就是x-Ten平台测出来的Q30可能在75%以下,经过重重险阻之后,Pair-end mapping rate低得要靠Single end mapping rate去撑门面,Duplication rate已经不算什么大事了。

有经验表明使用Illumina EpiGnome / TruSeq DNA Methylation kit和HiSeq sequencing,40M reads的duplication rate在10%左右。Hiseq3000/4000在2x75bp模式下Duplication rate在20~25%之间。DNA甲基化测序质量可能受测序平台,建库试剂盒、读长,甚至和“spike in”的内容等多方面的影响。

04

RNA

RNA可以认为是全外显子组,只占全基因组的2%不到,少了这么多内含子等非编码区域的搀和,以及有些基因高表达,有些基因不表达,可想而知,分子多样性肯定就弱了很多。有研究表明,RNA-seq的Duplication rate在40~50%之间,能发文章的数据尚且如此,意味着什么情况都可能发生。

05

体液样本DNA

比如唾液样本DNA,个体差异很大,值得注意的是凋亡的情况,简单的凝胶电泳可以对凋亡的程度进行简单的评估,凋亡严重的,不仅影响Duplication rate,据说还影响数据分析,值得注意。

06

PCR产物

主要指多重PCR产物。值得思考的是针对cfDNA/ctDNA的多重PCR产物,建议在适当的引物位置引入分子标签,万分之一的灵敏度不是梦。

07

单细胞

单细胞DNA的有些区域在测序结果中压根就测不到。单细胞全基因测序的覆盖率是80%~90%,而多细胞全基因测序的覆盖率能达到99%以上,原因就是分子多样性不同。

对于多细胞测序,相同区域的分子,这个细胞没有扩增到,另一个细胞可能就扩增出来了;而单细胞只有两次机会,没了就是没了。

08

植物DNA / 微生物DNA

微生物16s区域测序,建议搭配分子标签使用,并且使用长读长测序模式。其他更深的理解有待经验积累。


片段化

01

片段化方法

样本之后,就是片段化,无论是超声波打断、红宝石孔拉断、高压气体喷断,还是酶切切断,这里强调的是随机打断,利用内切酶混合物进行酶切一定要测试其分子多样性即Duplication rate是否符合自己的要求。

02

片段化参数

片段化环节需要保证获得适当的长度,片段长度越小,导致扩增越容易,加剧了PCR Bias,最后引起PCR产物复杂度降低,Duplication rate升高。


末端修复连接

01

  • 上一个:样本先生,您戴错帽子
  • 下一个:二代测序中Duplication rate 杂谈(二)
  • yGD7B4IEGqkN+3OxaHRHu6dgGXfFSSIlExZfNQlUXdl4pYtGNCyZgdzezotqGSEG2iqxnc9qvPCLqe4uIulomu3DmHEYnB4KhmMWOMeJCNFA1jktxljNlqHGNYSVSL4yoT+f0k0w5o2yGxOm0jKKC0DN/wjD0pfZchP2pIP20lpaXNG2iBJbIOihhzbIdy5t/AYMIfYALA8RVrHq6nJcDqVbCbtWRBDE