高通量测序技术(High-throughput sequencing)又称“下一代”测序(next generation sequencing,NGS)技术、大规模平行测序或深度测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。包括第二代测序技术、第三代测序技术和第四代测序技术。
第二代测序技术
第二代测序技术的核心原理是边合成边测序,其与第一代测序技术(Sanger法)相比,具有通量提高、成本降低、周期缩短,敏感性提高、读长变短等特点。目前具代表性的第二代测序平台主要有来自Roche公司的454法、Illumina公司的Solexa法和ABI公司的SOLiD法。
Roche 454法
Roche 454(GS-FLX)是一种基于微乳液PCR(Emulsion PCR)和焦磷酸测序技术的测序平台。其测序原理是:在DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的协同作用下,GS-FLX系统将引物上每一个dNTP的聚合与一次化学发光信号的释放偶联起来,通过检测化学发光信号的有无和强度,达到实时检测DNA序列的目的。
测序流程:
- 文库制备:将基因组DNA/cDNA打断成300-800bp长的片段,经末端修复与特异性接头连接修饰后,变性处理,回收单链DNA(ssDNA)。
- Emulsion PCR:ssDNA与水油包被的磁珠在一起孵育,退火,接头使成百上千条ssDNA分别结合到磁珠上(磁珠表面含有与接头互补的寡聚核苷酸序列)(一个DNA片段=一个磁珠),扩增试剂使磁珠乳化,形成油包水的混合物,每个DNA片段在这个混合小滴里进行独立的扩增,从而实现所有DNA片段的平行扩增(emPCR)。
- 焦磷酸测序:经过emPCR扩增后,每个DNA片段将被扩增大约100万倍,预先用Bacillus stearothermophilus聚合酶和单链结合蛋白处理带有DNA片段的磁珠,然后将磁珠被放入Pico Titer Plate板中供(焦磷酸)测序反应使用。
优点:
读取序列长(400 bp);短耗时;可进行从头测序(de novo sequence)。
缺点:
焦磷酸测序试剂成本相对较高;样本制备相对较复杂;无法判断重复碱基个数。
Solexa法
Illumina公司的Solexa/Hiseq技术是目前应用最广泛的二代测序平台。这两项技术,都是是基于桥式PCR和荧光可逆终止子的边合成边测序(SBS),其测序原理是:可逆终止化学反应,下面介绍了Solexa技术。
测序流程:
- 待测DNA文库的构建:将待测序列打断成200-500bp(或更短)的小片段,两头用酶补平后,在小片段两端加上不同的接头(adapter),连接载体,构建ssDNA文库。
- DNA与流动槽(Flow Cell)的附着:Flow Cell是一种含有8条lane的芯片,每条lane的表面固定有很多(P5’/P7)接头(引物)。测序时利用微注射系统将已经加过(P5/P7)接头的ssDNA片段随机添加到Flow Cell内,ssDNA片段的P5接头序列与芯片表面的P5’引物互补,一端被“固定”在芯片上。
- 桥式PCR(Bridge PCR)向Flow Cell中添加未标记的dNTP和聚合酶,以ssDNA片段为模板合成出一条全新的DNA链(P5’-P7’互补链),然后再加入NaOH溶液,使DNA双链解链,由于模板链没有结合在lane上,模板链会被溶液流洗脱,但互补链仍固定在lane上。加入中性缓冲溶液,环境变成中性后,互补链的P7’与lane上P7接头互补杂交,形成桥型ssDNA,接下来加入dNTP和聚合酶,聚合酶就沿着P7接头合成出一条新的链(桥型ssDNA扩增为桥型dsDNA)。再加入NaOH碱溶液,使DNA双链解链,然后再加中和液,继续扩增,经过不断的扩增和变性循环(大约35个循环)后,最终每种ssDNA都将在各自的位置上集中成束(cluster),每一束都含有单个DNA模板的500-1000个拷贝,从而达到测序所需信号强度的模板量。
- 桥式PCR完成之后,再次强碱解链,采用一种酶–甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane上p5‘ 连接的链,只留下了与lane p7连接的链–Forward Strand。同时。添加ddNTP阻断延伸。形成cluster测序单元,可直接用于边合成边测序反应。
- 测序:向反应体系中添加DNA聚合酶、接头引物和带有荧光标记的4种dNTP(可逆终止子:dNTP的3‘羟基被叠氮基团替代,只容许每次添加一个dNTP)。dNTP被添加到合成链上之后,将剩余游离dNTP和DNA聚合酶洗脱。然后加入激发荧光所需的缓冲液,用激光激发荧光信号,光学设备记录荧光信号,计算机分析并将其转化为测序结果。再加入化学试剂猝灭荧光信号,并使dNTP的3’叠氮基团变成羟基,继续进行下一轮测序反应。
优点:
高度自动化系统;读取片段多;适合大量小片段的测序(microRNA、lncRNA等);高性价比。
缺点:
读取序列较短;不适于de novo sequence。
SOLiD法
寡聚物连接检测测序(supported oligo ligation detetion,SOLiD)法是利用DNA连接酶在连接过程中进行测序,其技术核心是:4种荧光标记寡核苷酸的连接反应。
测序流程:
- DNA文库的构建:将基因组DNA/cDNA进行片段打断,并在片段两端加上测序接头,连接载体,构建ssDNA文库。
- Emulsion PCR:与454技术的Emulsion PCR类似,但磁珠比454小很多,只有1μm。将带接头的ssDNA固定在磁珠表面,进行PCR扩增,在扩增的同时对扩增产物进行3’端修饰,3’修饰的磁珠会被沉积在上样玻片(Slide)上,在上样过程中沉积小室将每张玻片分成1、2或8个测序区域。
- 连接酶测序:向体系中加入DNA连接酶、通用测序引物n和反应底物-8碱基单链荧光探针混合物(3’-XXnnnzzz-5’结构)。探针的5’末端分别标记了CY5、CY3、Texas Red、6-FAM四种颜色的荧光。在这个探针中,第1和第二位(XX)上的碱基是确定的,根据种类的不同在第6-8位(zzz)上添加了不同的荧光标记。这种由两个碱基确定一个荧光信号的测序方法被称为两碱基测序。当荧光探针与DNA模板链配对而连接时,会发生代表1,2位碱基的荧光信号。记录下荧光信号后,通过化学方法在第5和第6位碱基之间进行切割,移除荧光信号,以进行下一个位置的测序。通过这种方法,每次测序的位置都相差5位,即第一次测序的位置是第1、2位,第二次测序的位置是第6、7位……在测到末尾后,将新合成的链变性,洗脱。然后用通用引物n-1(在引物n的基础上将测序位置往3’端移动一个碱基,能测定第0、1位和第5、6位)进行第二轮测序。以此类推,再加入n-2、n-3、n-4进行测序,这样可以完成全部位置的碱基测序,并且每个位置的碱基均被检测了2次。
优点:
高通量;高准确度;可分割测序区域;系统灵活可以进行样本的pooling。
缺点:
读取长度受连接反应限制;一旦在荧光解码阶段发生错误就容易产生连锁的解码错误。
第三代测序技术
第三代测序技术的显著特点是单分子测序,测序过程无需进行PCR扩增,直接进行边合成边测序。该技术有两点是二代测序不具备的:一是直接测RNA的序列,第二个是直接测甲基化的DNA序列。目前具有代表性的第三代测序平台有美国Helicos Biosciences公司的HeliScope单分子荧光可逆终止技术和Pacific Biosciences公司的单分子实时(single molecule real time,SMAT)测序技术。二者均利用荧光信号进行测序。
HeliScope单分子荧光可逆终止技术
HeliScope单分子荧光可逆终止技术是基于边合成边测序的思想,测序过程无需对模板进行扩增,测序原理是:将DNA片段随机打断成小片段分别进行dNTP荧光标记,经过不断地重复合成、洗脱、成像、猝灭过程完成测序。
测序流程:
- 将待测序列随机打断成小分子DNA片段,在3’末端加上poly(A),并在poly(A)的末端进行荧光标记和阻断。
- 将待测模板固定到芯片上(通过poly-A尾与固定在芯片上的poly-T杂交),制成测序芯片。
- 加入DNA聚合酶和被Cy3荧光标记的脱氧核苷酸进行DNA合成,每一轮反应只加入一种dNTP,然后将未参与合成的DNA聚合酶和dNTP洗脱。
- 采集Cy3荧光信号,然后切除荧光标记基团,加入下一种dNTP和DNA聚合酶的混合物,进行下一轮测序反应,如此反复,最终获得完整的序列信息。
优点:
高通量;避免PCR扩增引入错误,提高准确率。
缺点:
读长短;测序成本较高;单读长的错误率偏高,需重复测序以纠正错误;仪器非常昂贵。
SMRT
SMRT也是基于边合成边测序的思想,该技术以SMRT芯片(一种带有很多零模波导(Zero-Mode Waveguide,ZMW)孔(纳米级)的金属片)为测序载体。其基本测序原理是:不同荧光标记的4种dNTP,在碱基配对阶段,随碱基加入的不同,会发出不同荧光,根据光的波长与峰值可判断碱基类型。
测序流程:
- 将DNA聚合酶、待测序序列和被不同荧光标记的dNTP(标记的是磷酸基团而不是碱基)放入ZMW进行合成反应,由于ZMW孔外径仅100多纳米(比检测激光波长小),激光从底部打下去后不能穿透小孔,进入上方溶液区,能量均被限制在一个小范围里,正好能够覆盖需要检测的部分,从而使信号均来自于反应区域。而孔外未参与合成的dNTP由于未进入检测区,则不会发出荧光。
- 当一个被荧光标记的dNTP被加入到合成链上的同时,会进入ZMW孔的信号检测区,在激光束的激发下发出荧光,根据荧光种类可判断dNTP种类。
- 在荧光脉冲结束后,被标记的磷酸基团被切割并释放,聚合酶转移到下一个位置,下一个dNTP连接到位点上开始释放荧光脉冲,继续进行下一个循环。
优点:
测序速度快,每秒约10个dNTP;读长可达几千个碱基;不需要扩增,原始DNA不被破坏。
缺点:
仪器昂贵,测序成本较高;单读长的错误率偏高;DNA聚合酶在阵列中降解。
第四代测序技术
第四代测序技术又称“纳米孔测序技术”,是近几年兴起的新一代测序技术。另外纳米孔测序在国外也被归纳为第三代测序技术。目前市场上广泛接受的纳米孔测序平台是英国Oxford Nanopore Technologies(ONT)公司的单分子纳米孔测序技术(Nanopore sequencing)。
nanopore sequencing
nanopore sequencing是一种基于电信号测序的技术。其测序原理为:当DNA分子在通过纳米孔道时,会对通过纳米孔的电流或横穿过纳米孔的电流产生影响。不同碱基通过时,对电流产生的影响不同。利用这种差异,nanopore sequencing就可以识别基因中碱基(对)的排列顺序。
- 独特特点:能够直接读取甲基化的胞嘧啶。
测序流程:
- α-溶血素为材料构建生物纳米孔,孔内共价结合有分子接头——环糊精,孔外一侧吸附有核酸外切酶。
- 将该系统镶嵌在一个脂双分子层内,为了提供既符合碱基检测又满足外切酶活性的物理条件,脂双分子层两侧应分别设定为不同盐浓度。
- 在适合的电压下,用核酸外切酶切割ssDNA,被切割下来的单个碱基落入纳米孔,并和孔内的环糊精相互作用,短暂地影响流过纳米孔的电流强度,每个碱基均因其产生特有的电流干扰振幅而能够被区分。
- 碱基在纳米孔内的停留时间是毫秒级的,其解离速率常数与电压有关,180mV的电压即可保证在电信号记录后将碱基从纳米孔中清除。
优点:
测序读长长(超过150kb);测序速度快;测序数据实时监控;机器方便携带等。
缺点:
采用水解测序法,不能进行重复测序;切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置,通量较小。
高通量测序技术的应用
- 转录组测序:研究细胞表现和功能
- 甲基化测序:表观遗传学标记信息
- 外显子组测序:研究定向富集的DNA
- 染色质免疫沉淀-深度测序(ChIP-seq)
- 基因组测序等。