纳昂达科技欢迎您!联系电话:400-8717-699
暂无图片
您当前的位置:天天彩票下载app > 小纳专题 > 捕获专区

捕获专区

NGS靶向测序的评价指标

随着对人类疾病与基因组研究的深入探索,测序作为一种有效的分析手段已深入人心。虽然全基因组测序(Whole Genome Sequencing,WGS)的成本日益降低,但是一定程度上价格仍然高企。尤其在某些对测序深度有要求的应用场景,WGS距离常规流程化还有相当一段距离。

靶向重测序(Targeted Resequencing),作为一种高性价比的分析特定基因或区域的分析手段,颇受欢迎。与扩增子靶向重测序(Amplicon-based Resequencing)不同,液相杂交捕获(In-Solution Capture)一定程度上允许“容错型”富集,即目标区域与捕获探针(Capture Probe 或 Bait)有较大区域互补结合就可以被有效富集。靶向捕获的灵敏度与特异性则经由捕获探针的特异性、杂交反应体系、洗脱体系的严谨性等要素把控。

 图1. IDT靶向捕获方案的工作流程


常见的靶向目标包括外显子测序(Whole Exome Sequencing,WES)、与所研究疾病密切相关的基因(常为编码区域)或者特定区域(例如基因全长或者某些染色体区域等)。根据靶向目标设计出来的一组捕获探针通常被称为Panel。

NGSer对于靶向测序下机数据的分析指标不胜枚举。此篇小短文旨在从研究人员的角度来说明哪些指标更重要,能更好地反映靶向富集Panel的性能。根据IDT的官方推荐,一般使用下列指标来评价靶向捕获Panel的表现:

中靶率

覆盖深度

覆盖均一性

唯一读长和重复读长的比例

中靶率

如前所述,液相杂交捕获是一种容错型富集方法,无法做到100%的中靶(On target)。在测序下机数据中,总存在一定比例的脱靶(Off target),即非靶向区域数据。NGSer常使用碱基或者读长(Reads)来计算中靶率,常以百分比表示。中靶率代表了靶向区域范围内的碱基数或Reads数占有效测序下机数据中碱基总数/Reads总数的比例。


     方法1:%中靶=中靶的reads数/总有效reads数

 方法2:%中靶=中靶的碱基数/总有效碱基数


在以Read为基础的计算方法中,当Read中有一个碱基能比对到靶序列,则认为该Read中靶。如图2所示,按Reads数计算,图示的中靶率为75%(Read1、2和4中靶,Read3脱靶);如按碱基数计算,中靶率约为50%(仅一半的碱基在靶序列范围内)。我们建议按Reads数来计算中靶率,因为这样能更准确地反映出靶序列的捕获情况。


图2. “中靶”的定义


在同样的测序通量条件下,Panel的中靶率越高,可用于分析的有效数据也就越多。杂交捕获实验过程中,有几个重要的因素/步骤会对中靶率造成显著影响


首当其中是对高度相似区域的封闭。对于文库分子来说,这种高度相似区域包括两类:


  • 基因组DNA中天然存在的不同程度的重复序列

  • 文库分子经连接/扩增以后带上的测序平台通用的接头序列


如果不针对以上两种高度相似区域进行处理,非特异序列会大量出现在下游测序数据中(图3. A)。因此封闭在杂交捕获实验过程中必不可少。使用封闭cot1和接头封闭序列(Adapter Blocking Oligo)可以显著提高中靶率(图3. B)。


图3. (A)基因组中的重复片段和文库分子的共有接头易引入脱靶序列(B)使用封闭接头后显著提升中靶率

其次,文库杂交和洗脱条件也会显著影响中靶率。如图4. A的蓝色柱状图所示,Protocol v2通过调节杂交及洗脱时的温度可以明显提升中靶率。考虑到IDT捕获探针的高效性能,我们推荐联合侧翼区域(Flanking region,图4. B)进行分析(图4. A蓝色和橙色柱状图)。值得注意的是,比对到侧翼区域上的reads数与被打断的片段大小有关,片段越长,比对到侧翼区域的reads越多。

图4. (A)实验优化和联合侧翼区域分析提升中靶率(B)侧翼区域贡献中靶reads

覆盖深度


覆盖深度指被测序的DNA片段比对(mapping)到基因组靶区域的次数。靶区域被覆盖得越深(即该区域被测序的次数越多),其测序结果的可靠性及灵敏度越高。

二倍体生物(如人类、小鼠或大鼠)进行基因组重测序的最小覆盖深度通常为20~30 X。但实际应用中,根据科研或生物信息团队的测序目的,最小覆盖深度可大可小。比如全基因组范围大片段拷贝数变异的扫描,仅要求数乘就可满足;对于FFPE样本的分析,则达到200~1000 X。更高的覆盖深度有利于更灵敏地检测到基因组变异。

如何预估某项测序应用需要达到多大的覆盖深度呢?我们建议以20 X的深度与感兴趣的等位基因频率的比值作为最低覆盖深度。例如:某个等位基因突变的发生率为5%(0.05),想要检测到该突变则需要400 X(20/0.05)的覆盖深度。

覆盖均一性


捕获panel均一性的表示方法有很多。计算达到0.2、0.5以及1倍的平均覆盖深度的序列所占百分比,是一种比较常见的对panel覆盖均一性的评估方法。这个比值可以帮助研究人员考察低覆盖深度带来的局限性。如果98%以上的靶向区域呈现超过0.2倍的平均覆盖深度,我们通常认为这个Panel的均一性较好(图5)。 

图5.  IDT设计生产的xGen AML Panel(Catalog No. 1016302)表现出优秀的覆盖均一性,98%的区域超过0.2 倍平均覆盖深度


不同Protocol的使用对捕获的均一性也存在影响。如图6的累积曲线所示,Protocol v2对靶序列的覆盖明显更深更广,20X深度时覆盖~93%的靶序列;而在Protocol v1中,20X深度仅覆盖到~86%的区域。这个差距则意味着Protocol v1产生的捕获后文库需要更多的测序量才能实现更好的覆盖度。

图6. 对覆盖深度的评估为方便计算和比较不同测序平台的覆盖深度,数据已做标准化处理(以1百万条Mapped Reads计算)


对于涉及拷贝数变异(Copy Number Variation, CNV)分析的panel捕获,我们推荐计算变异系数(Coefficient of Variation,CV)来评估覆盖度的均一性。CV值可以表示为标准差与平均数的比值(CV=SD/mean);CV值越小说明均一性越好。

按照不同GC含量区域对CV值进行细分计算,通常发现GC含量高低两端的区域CV值会更高,这主要是由于PCR扩增的偏好性导致的;IDT的xGen Lockdown Probes具有独立合成与独立质控的优势,因此已将探针本身的质量与数量的偏好性降至最低。我们建议用户按照自己的需求选择均一性的评估方法以及调整实验。

Protocol v1的均一性略好(图7. A),这个对于检测拷贝数变异来说也许更重要;但对于其他检测而言,Protocol v2对于整个靶向区域覆盖的更深(图7. B),因而性价比更高。

图7. xGen快速捕获Protocol v1和Protocol v2均一性的数据 


唯一读长 & 重复读长的比例

杂交捕获测序中(尤其在双端测序时),由于PCR扩增使一个原始的DNA片段产生了多个Copy,从而出现了重复读长(Duplicate reads)。当对随机打断后进行PCR扩增的DNA片段进行测序时,一定程度上的重复是难以避免的。

我们的目标是在靶向富集后尽可能保证文库的多样性;这样在随机读取样本时,多次检测到同一片段的概率就会降低。大多数的测序分析都按照“同头同尾”的原则剔除掉PCR产生的Duplicate reads(这一过程,可能会误删Duplicate fragment,即天然存在的“同头同尾”的DNA片段;使用不同的分子标签方法可以减少误删,详情请见“”)。因此如果使用的Protocol能减少重复DNA片段的数量,则会大幅提高测序数据的有效性。

如果我们对测序灵敏度有更高的要求,例如低频或罕见突变的检测,Duplicate比例则显得尤为重要。Duplication的比例越高意味着样本的多样性越低,而多样性对准确检测到基因变异具有决定性意义。

一般靶向捕获实验需要两次PCR扩增:第一次扩增产生捕获前文库(Pre-capture library),第二次扩增产生捕获后文库(Post-capture library)。通过控制PCR参数,主要是循环数,来调整实验从而优化Duplication的比例。图8展示了循环数优化后, Duplicate reads的所占比例减少到原先的1/3。

图8. 实验优化显著降低Duplicate reads的比例, 该优化测试使用的是xGen® AML Panel (Catalog No. 1016302)

除了起始样本量与PCR循环数以外,文库混杂的比例(即进入杂交捕获实验所用文库量占总出库量的比例)、测序平台的选择以及是否使用分子标签都会对Duplication的比例造成影响,我们将在后文中再做进一步探讨。

此文中的内容主要来自IDT官网(http://www.idtdna.com/),由纳昂达独家翻译,如需转载,请联系订阅号后台。


封阻序列

IDT生产适用于基于A-T连接或转座子建库方法的Universal Blocker。利用IDT专利技术高效封闭多种Indexed-adapter序列,降低Adapters序列之间的干扰,提高中靶率。


同时针对其他测序平台,IDT也可以提供相应的封阻序列定制服务。


xGen Universal Blocker



其他测序平台



IDT定制Panel流程

 IDT所有的探针设计在线开放(https://www.idtdna.com/site/order/ngs),可以根据目标区域及覆盖要求,选择参数和订购方式。


4erCUrf+L9E//euSwXP0LKdgGXfFSSIlExZfNQlUXdl4pYtGNCyZgZy9Zy4M7oPvnDlC/fJMJxMxXiwzsVYiPoZ/Kr34qrIpW7h9/ItyDQ9VYKgLolFeinu4IllDwxbzmhzPRaGo063AXE4TE0KMJZQ0hwkwkPqeDmj7YKiOEmYaFqjN+l6lJF+5rMydDML0BJWInwhRRmXzUccZjlz29kEoEUGD50CY