纳昂达科技欢迎您!联系电话:400-8717-699
暂无图片
您当前的位置:天天彩票下载app > 小纳专题 > 样本专区

样本专区

样本先生,您戴错帽子

  本年度测序大的新闻莫过于,illumina推出“测序洗衣机”型号-NovaSeq。2天产生2 Tb数据,通量是10年前Genome Analyzer的2000倍。

  更高的通量,意味着更多的样本混合上机。聪明的人们想到了给样本“戴帽子”,即在文库制备中通过Y型接头或者PCR扩增引入标签(barcode or index),然后“以帽取人”。通过构建文库时对每个样本戴上独特的“帽子”,好让生信工程师在“茫茫reads海”中一眼就看到,这是目前非常受欢迎的解决方案。然而,整个流程中,很多的操作不能保证尽善尽美,总有样本会“戴错帽子”,就像下图的小黄人。但是,对于高通量测序,戴错帽子不仅仅是尴尬了一下那么简单,很有可能是和“重大发现”失之交臂。

  2017年初,美国Standford大学的科研工作者Sinha,利用Illumina Hiseq 4000对RNA样本进行测序。结果,在成千上万的类似造血干细胞中,找到41个独特的细胞亚群。本以为自己找到了真正的造血干细胞,但难以重复的实验结果使他发现,那些“激动人心的结果”只不过是在 illumina ExAmp平台的交叉污染产生的“镜花水月”。相同的文库用Nextseq 500进行测序,大部分交叉污染消失了,那些“激动人心的结果”也再也没来敲门[1]。无独有偶,Cambridge University和Swedish Bioinformatician等研究机构都发现了在Hiseq4000等型号上出现了类似的index标定到错误样品上的问题[1]。

天天彩票下载app   千呼万唤始出来。今年4月份,illumina公布了题为“Effects of Index Misassignment on Multiplexing and Downstream Analysis”的白皮书[2]。坦陈了illumina一些高通量型号,如HiSeq 3000/4000,Hiseq X Series 及NovaSeq等仪器,容易出现样品标签错配(index misassignment)的问题,而这些仪器的共同点在于,都采用了新型的以Nano-Well 为特点的Patterned Flow Cell Technology(PFCT),簇生成方式也有别于传统的桥式PCR,换成了ExAmp(Exclusion Amplification,排他性扩增)。Illumina生动的描述这种现象为“标签跳跃”(index hopping)[2]。

  什么是sample cross-talk / index misassignment?

  正如Illumina在白皮书里描述的,样品标签错配一直存在于不同机型中。而造成这种现象的根本原因在于串扰(cross-talk)。而所谓的index hopping,只是在最新型的测序平台,由于PFCT和ExAmp技术的应用,凸显出来而已,是sample cross-talk的子集。

  除此之外,二代测序实验过程的复杂操作也是非常容易发生cross-talk。从前期文库构建到杂交捕获,到簇生成,甚至测序仪读取各个环节中,如不注意,正所谓“步步皆坑”,导致index misassignment,引入非常规误差。由于样品的区分完全依赖于检出的index序列,因此不同层面的cross-talk最终导致样本“张冠李戴”。

  什么实验会受 index misassignment 的影响?

  在二代测序的相关研究中,像Sinha这样的科学家,希望能在大海捞针的需求并非特例。竞争日趋激烈的医疗行业中,一滴血中分离出来源于肿瘤的ctDNA,从30亿对碱基中寻找到罕见突变,成为大家希望抢先占领的技术高地。

天天彩票下载app   其中“低频突变检验”是液体活检从业者非常关心的一部分。基于二代测序的同质行业竞争日益激烈,谁能检测出更低频的突变,谁的假阳性低,谁的敏感度高,谁便能在竞争中掌握主动,站在高处一览众山小。在极低频突变检测中,避免假阳性是液体活检从业者格外关心的重要一环。因此深究导致index misassignment生成的背后原因和如何避免就显得尤为重要。

  基本上有以下几方面的研究可能会受到 index misassignment的影响。

天天彩票下载app   除此之外,但凡涉及到利用NGS方法在一个高背景噪音干扰的混合物中寻求微量“阳性”数据的检测都非常容易受到index misassignment的影响。因为在同一个实验通道内的邻居样本很可能用了错误的index刷开了你家的大门。

天天彩票下载app   index misassignment 产生的原因

  读到这里,大家一定感叹,新技术的出现,总是“按下葫芦起来瓢”,解决完现有问题,又会引入新的问题。但是,index misassigment的“锅”不能只让ExAmp技术来背,它只是让这些问题重新引起了很多人的重视,sample cross-talk本身从来都不是一个新问题。

天天彩票下载app   二代测序整体流程上,每一个过程的微小失误都可能引入sample cross-talk。

发生sample cross-talk的阶段

导致原因

indexed adapter/ index primer 制备

交叉污染

实验室污染,人为操作等

交叉污染

文库构建

残留 indexed adapter 或 indexing PCR primer

捕获平台多杂一

样本多杂一,不完全匹配扩增

测序平台

测序错误

Patterned flow cell, nano well+ExAmp

非patterned flow cell

不同cluster之间信号干扰

  例如,传统双端index的方法是通过少数几种index序列(8+12,共计20种)排列组合(combination)实现96种样品的标签区分。然而这种方式非常容易在加样过程中引入index交叉污染。我们假设实验过程中中由于操作失误或者污染,A1中混入了1%的 A2号index,混入后组成新的i7 、i5 组合index。而该种组合在样品分配中无法将这部分错误剔除(由于A1A2 混合在一起进行测序,任何i5,i7的组合都是“合法”的)。因此原本属于A1标签的样本中的1%的测序数据就被错误的分配到A2标签的另一个样本中。

  让我们再次回归到文章开始提到的Sinha的例子,利用ExAmp作为簇生成方式的patterned flow cell测序平台是造成 Sinha 实验样本错误分配的主要原因。因为在以传统桥式PCR作为簇生成方式的 non-patterned flow cell型测序仪Nextseq 500重新测序后,大部分交叉污染消失了。根据illumina发布的白皮书,其机理很可能是,游离的接头或引物在patterned flow cell 带来的sample cross-talk。

  ExAmp(Exclusion Amplification), 这种技术搭配patterned flow cell使用,大大提升了测序效率,降低了测序成本。但是Illumina也观察到,与传统的桥式扩增(bridge amplification)相比,也引起了更多的样本错配。illumina还观察到,标签跳跃的程度和 spike in 的接头比例成正相关;相比在传统桥式扩增平台,在ExAmp方式下,标签跳跃的比例可高达达到2% [2]。

  要知道,临床上变异的检测下限值是5%,Sanger的检测下限值是10-15%。在癌症早诊和癌症早期检测中,液体活检用户希望检测到1%以下甚至更低的低频突变。而sample cross talk发生时,NGS超深度测序优势却被样本错配拖累到不显著了。

  优秀index的自我修养

  没声音,再好的戏也出不来。对于Novaseq这样两天可以产生2TB数据的超高通量测序平台,必须有与之搭配使用的多种优质index与接头,才能真正发挥其高通量的作用。下面三点是经常需要考虑的:

天天彩票下载app   1.含有index序列 adapter 合成的准确性

天天彩票下载app   从序列的生产起,就要从源头把控index序列的准确性。生产全过程的质检和序列纯化不可或缺,剔除含有错配碱基和长度不完全的序列,便是控制了由于错误合成,尤其是index相关序列。如果没有完整的独立的质控,则在合成阶段就非常容易引入接头之间的串扰。

  2. 汉明距离Hamming Distance

天天彩票下载app   在信息论中,两个等长字符串之间的汉明距离(Hamming distance)是两个字符串对应位置的不同字符的个数。简而言之,发生几次变化会将序列A变成序列B[3]。

  测序平台始终存在一定的测序错误。在index的设计中,理想的汉明距离能够允许用户即使在测序过程中恰巧在测序index时发生了错读,也可以反推回正确的index。

天天彩票下载app   体现在index设计方面,与index的容错率有关。index序列长度增加,可供选择的种类越多,容错率也越强。这也是为什么,为了满足更高的通量,index序列从最初的6nt,增加到8nt,甚至某些用户会想要更多[3]。

  3.考虑 2-channel 及 4-channel测序平台的通用性

  为了提高测序的速度,illumina在NovaSeq等平台上采用了2-channel的设计。在此类测序平台中,2-channel使用混合染料,而不是对每个碱基使用单独一种染料。

  这种方式,相比4-channel,每轮数据读取只需采集2次信号,速度更快。但是,碱基G是无荧光标记的,如果序列中存在连续多个G,会发生读错的概率增大。因此在针对2-channel测序平台(包括Nextseq,MiniSeq和Novaseq等illumina 测序平台)来说,index序列的选择要避免出现连续G碱基的组合情况。因此我们在设计index 时候,要考虑在2-channel和4-channel平台的通用性。

天天彩票下载app   4.其他因素

  除以上几点外,index设计过程中,还要考虑到GC平衡,色彩平衡等。基于多番考量后的index种类是远远少于 4n,因此每一个经过特殊设计的index 序列都弥足珍贵。这些index的接头就是实现新平台高通量样本的基石。

  测序技术10年间,通量从1 Gb到 2Tb,增长了2000倍。测序仪器迅速更新迭代,测序通量也是极速增加,因此在NGS过程,对每个样本不“张冠李戴”对于NGS从业者来说至关重要。希望大家在享受高通量平台的便捷的时候,给自己的样本戴上“好帽子”。在illumina优化平台之前,我们只能接受这种不完美,但是总有解决办法来弥补这个缺陷。

  明天晚上8点,上海纳昂达公司邀请了Integrated DNA Technolgoies 公司 NGS产品研发部门生信科学家王家石博士进行在线讲座,将探讨引入样本串扰的各个实验阶段和相关原因,他还将进一步展示IDT “新型3合1接头”在剔除NGS实验过程中样本串扰的同事还能实现对低频突变的检测。

天天彩票下载app   参考文献

  [1]Sinha R, Stanley G, Gulati G S, et al. Indexswitching causes “spreading-of-signal” among multiplexed samples in Illumina HiSeq 4000 DNA sequencing[J]. bioRxiv, 2017: 125724.

天天彩票下载app   [2]illumina.Effects of index misassignment on multiplexing and downstream[Z] Analysis.

天天彩票下载app   [3]Bystrykh L V. Generalized DNA barcode designbased on Hamming codes[J]. PloS one, 2012, 7(5): e36852.

Q4qT7ZaRC/8//euSwXP0LKdgGXfFSSIlExZfNQlUXdl4pYtGNCyZgRsQdOTam4UKnDlC/fJMJxMxXiwzsVYiPoZ/Kr34qrIpW7h9/ItyDQ9VYKgLolFeinu4IllDwxbzmhzPRaGo063AXE4TE0KMJZQ0hwkwkPqeDmj7YKiOEmYaFqjN+l6lJF+5rMydDML0BJWInwhRRmXzUccZjlz29kEoEUGD50CY