他山之石,可以攻玉。

测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。自从DNA测序技术问世以来,就受到了广泛的应用。在生物信息学迅猛发展的今天,DNA测序技术早已成为一项关键核心技术。

DNA测序技术允许我们读取和记录DNA分子中的碱基排列,从而识别基因、研究遗传变异、了解生物体的遗传信息,以及进行各种生物学和医学研究。

它从1977年的第一代Sanger技术发展至今,已经足有40年时间。在这个技术发展的更迭历程中,测序读长从长到短,再从短到长。虽然就当前形势看第二代短读长测序技术在全球范围内上占有着绝对的垄断位置,但第三测序技术也已在这几年快速地发展着。测序技术的每一次变革和突破,都对基因组学研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。

测序技术发展历程

在生物信息学的数据分析之前,先知道实验人员们是如何将那些原本存在于细胞中的DNA信息获取出来——也就是测序的原理,总是有益的。所以在本文中,我们将重点放在DNA测序技术的发展上,着重梳理一下DNA测序技术的原理及其发展历程,以便对DNA测序技术有更好的掌握。

第一代DNA测序技术(Sanger法)

第一代DNA测序技术也称为Sanger法测序技术,是1975年由桑格(Sanger)和考尔森(Coulson)提出的链终止法。

在1977年,由Sanger本人测定了噬菌体phiX-174的基因组序列,全长只有5375个碱基。虽然与今日的技术比起来根本不算什么,但这是人类第一个完整测定的基因组序列。自此之后,人类获得了窥探生命本质的能力,并以此为开端真正步入了基因组学时代。

早在2001年完成的人类基因组框图,采用的就是该方法。而且因准确率高,直到今天还在广泛使用,也被称为基因检测的金标准。下面我们来看看Sanger法是怎样测得基因序列的。

第一步 构建反应系统

Sanger法测序由一套共四个单独的反应构成,每个反应系统均包含四种脱氧核苷酸三磷酸 (dNTP)和配套的材料,以便于正常合成DNA。而特殊之处在于,每一个反应系统都会加入某一种特定的双脱氧核苷三磷酸 (ddNTP)。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA的合成反应,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。

为了方便定位,我们用荧光或者同位素标记ddNTP,用不同的颜色或者不同的同位素标记不同的反应体系,这样这样我们的四个反应体系就构建完成了。

四个不同的反应体系

第二步 扩增目的片段

下一步进行扩增,以目的片段为模板,在DNA聚合酶的催化下,从引物处起始,开始复制DNA,当遇到ddNTP时,反应停止。

对反应体系中dNTP与ddNTP的比例进行调节,可以得到一组长度不等的链终止产物。如果ddNTP浓度高,结合几率高,阻碍链延长的几率就高,那么目的片段复制的长度就短。

也就是说,这些扩增产物具有共同的起始点,但终止在不同的的核苷酸位点上。比如下图扩增得到的片段,一共有9个碱基,而另一条扩增片段也可能只有4个碱基。

扩增序列示意图

第三步 凝胶电泳与读取

通电开始跑条带,在电流与凝胶阻力的作用下,纵向会出现具有相同间隔有规律的条带,它代表着不同的序列长度,在横向分别对应ATGC。需要注意的是,最短的条带在电泳时会出现在最远的位置。现在,我们很容易就可以读出下图的DNA片段序列为5’-GATTCGAGCTGA-3’。

扩增序列电泳

而模板链(也就是待测片段)与扩增出来的序列是互补的,也就是3’-CTAAGCTCGACT-5’。

反推模板链

而随着物理及化学技术的发展,人们想到可以用相同的激发波长且具有不同发射波长的荧光基团标记ddNTP(用一种激发光照射后,这些基团会有不同的光学颜色)。现在,我们就可以把四种 ddNTP放在同一体系下,通过光激发将四种光波长信号转化为电脑可识别的电信号,在计算机眼里就会表现为不同的物质来处理。

优缺点分析

由于Sanger法是第一代的测序技术,开创了DNA测序技术的先河,而它测序读长可达1000bp、准确性高达99.999%、结果直观且假性成果低的优点直到现在都很具有显著性。

但其也有很严重的局限性,测序成本高、通量低、难以处理长同聚物等方面的问题严重影响了其大规模的应用。因而第一代测序技术并不是理想的测序方法,所以目前仅被用于少量DNA分子的测序实验中。

第二代DNA测序技术(NGS)

经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术为标记的第二代测序技术诞生了,也被称之为下一代测序技术(Next Generation Sequencing, NGS)。

第二代测序技术在大幅提高了测序速度的同时,还大大地降低了测序成本,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周。但其序列读长方面比起第一代测序技术则要短很多,大多只有100bp-150bp。

目前测序仪市场主要以illumina的为主,占全球75%以上,所以我们着重介绍一下illumina品牌的技术。illumina的机器采用了一种新的边合成边测序(SBS)的方法,主要分为四个步骤进行。

illumina测序原理

第一步 文库构建

简单来说就是把一大团的DNA分子用超声波打断成一定长度范围的小片段。目前除了一些特殊的需求之外,基本都是打断为300bp-800bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库,以备测序之用。

文库构建步骤

其中,接头序列是已知的,包含以下三部分:

  1. 测序引物结合位点序列(Sequencing binding site)
  2. 索引序列(Index)
  3. 与流动槽上的寡核苷酸结合的互补序列(Region complementary to the flow cell oligo)

经过接头的DNA片段集合,就被称为DNA文库。

第二步 簇生成

这一步中,在第一步处理好的DNA片段会被转移至流动槽内,在流动槽中某一特定的DNA片段会被扩增出数条相同的DNA片段,以增强信号,便于仪器观测。

下面我们重点介绍一下流动槽(flowcell)。流动槽是用于吸附流动DNA片段的容器,也是核心的测序反应场所,接下来所有的测序过程就都发生在这里。

流动槽的结构

当文库建好后,这些文库中的DNA在通过流动槽的时候会随机附着在流动槽表面的槽道(lane)上。

每个流动槽有数个槽道,每个槽道会有多列(swath),每列都会有数格(tile)。每个槽道的两侧都会有液流孔,以便于液体流动。

流动槽点表面通过共价键链接有大量的两种接头,这些接头分别能和建库过程中加在DNA片段两端的接头相互配对,这就是为什么流动槽能吸附建库后的DNA片段的原因,并能支持DNA在其表面进行桥式PCR的扩增,理论上这些槽道之间不会相互影响。


我们上面提到,簇生成就是每个DNA片段扩增的过程。在流动槽中,DNA会进行桥式PCR扩增。如下图所示就是桥式PCR扩增的大致流程。

桥式扩增示意

具体过程如下:

  • DNA片段单链(即模板链)的接头结合位点部分,与流动槽内的接头1进行碱基互补配对,使得DNA片段杂交到流动槽上。
  • 加入dNTP和DNA聚合酶,使得DNA聚合酶沿着流动槽内的接头1向上延伸合成互补链。
  • 加入NaOH溶液,使得双链间的氢键断开,将模板链洗脱掉,现在槽内只剩下与接头1相互连接的DNA片段(即互补链)。
  • 加入中性溶液,将环境冲至中性,使得互补链发生折叠,另一端与流动槽内接头2碱基互补配对,形成桥状。
  • 加入dNTP和DNA聚合酶,使得DNA聚合酶沿着流动槽内的接头2向接头1方向延伸合成模板链。
  • 加入NaOH溶液,使得双链间的氢键断开,加入中性溶液,将环境冲至中性,使得两种DNA链均发生折叠,以此类推继续合成更多的链。
  • 对接头1特定的部位进行剪切,将互补链切除洗脱掉。

通过这么一系列操作,剩下扩增出的模板链的集合就形成了簇。

第三步 测序

我们提到了,illumina采用的是边合成边测序的方法。类似于Sanger法,需要向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP。

首先,测序引物与模板链的结合位点碱基互补配对进行结合,接着通过DNA聚合酶进行向下延伸合成,以进行读段操作,即read过程。

但注意此处添加的dNTP是经过特殊处理过的。这些dNTP的3’-OH被叠氮基保护,无法生成磷酸二酯键。因而每次只能添加一个dNTP,即可逆末端终止。这就确保了在测序过程中,一次只会被添加一个碱基。同时在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。

特殊dNTP结构

接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。

这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH的保护基团,以便能进行下一轮的测序反应。

我们刚才提到,大量的DNA片段同时进入流动槽且互不影响,所以测序会高通量地进行。如此进行数轮后,第一次扩增结束,read1被洗脱,此后会进行索引校验,即index过程。

对于每条打断的DNA小片段,在文库构建时都会增添一个索引序列,通过读取索引序列,即可判断出该片段位于何处。我们加入index1的测序引物,以及DNA聚合酶和特殊处理的dNTP,与read过程相似,记录索引序列即可完成此步骤。

完成后,再将index1洗脱掉。

由于测序的质量会随着测序的进行而下降,所以read越往后测越不准确,故单端测序下游的质量会变差。因此为了保证准确性,该方法会进行双端测序,以增强序列的有效长度。

通过桥式PRC扩增技术合成出互补链,洗脱掉模板链,类似地进行read和index操作即可,此处不再赘述。得到的产物即read2和index2。

第四步 数据分析

测序完成后会产生数百万个reads,基于在样品准备时构建的index分类来自不同样本的序列。对于每个样品来说,具有相似延伸的碱基被聚在一起。正向和反向read配对生成连续序列。这些序列通过与参考基因组匹配后,实现完整序列的构建。

在本文中我们重点分析的是对应测序技术的原理,数据分析目前不在我们的考虑范围内,所以简单一笔带过。

illumina的这种每次只添加一个dNTP的技术特点能够很好的地解决同聚物长度的准确测量的问题,且其速度和效率都相较于上一代测序技术有所提升。但它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%左右。

第三代DNA测序技术

第三代测序技术是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,它最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,下图是PacBio SMRT技术的测序读长分布情况,平均达到10Kb-15Kb,是二代测序技术的100倍以上。

SMRT测序read读长分布

SMRT技术

SMRT技术类似于illumina,也是应用了边合成边测序的方法。它以SMRT芯片为测序载体,类似于illumina的流动槽。基本原理大致就是DNA聚合酶和模板结合,用4色荧光标记A,C,G,T这4种dNTP。在碱基的配对阶段,随着不同的碱基加入,会发出不同的光,根据光的波长与峰值可判断进入的碱基类型。

SMRT测序原理

SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是零模波导孔(ZMW)原理。具体来说,零模波导孔就如同微波炉壁上可看到的很多密集小孔。

我们都知道,微波炉壁上的小孔的直径是有着严格要求的。如果直径大于波长,能量就会在衍射效应的作用下穿透面板从而泄露出来,从而由于干涉效应与周围小孔的能量相互干扰;如果直径小于波长,那么能量就不会辐射到周围,而是保持直线状态,从而可起到保护的作用。

同理,在一个反应管中有许多这样的圆形纳米小孔,即零模波导孔,外径100多纳米,比检测激光波长小,激光从底部打上去后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围里,正好足够覆盖需要检测的部分,使得信号仅仅只是来自于这个小反应区域,而孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景噪音降到最低的目的。

SMRT技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息。

SMRT技术的测序速度很快,每秒约10个dNTP。但这么快的测序速度也带来了一些明显的缺点——测序错误率比较高(这几乎是目前单分子测序技术的通病),可以达到10%-15%,而且以缺失序列和错位居多,但好在它的出错是随机的,并不会像第二代测序技术那样存在一定的碱基偏向,因此可以通过多次测序来进行有效纠错。

Nanopore技术

Nanopore是一种很新的技术,与以往的测序技术相比都不同的是,它是基于电信号而不是光信号的测序技术。

这个技术的关键点在于他们所设计的一种特殊纳米孔,孔内共价结合分子接头。当DNA分子通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度,而每种碱基所影响的电流变化幅度是不同的,最后高灵敏度的电子设备检测到这些变化从而鉴定所通过的碱基。

Nanopore测序原理

Nanopore的读长很长,基本都是在几十kb上百kb以上,错误率也不高,一般维持在5%-15%之间,也是随机错误。Nanopore最大的特点就是体积极小,而且可以将数据可实时进行读取,并且起始DNA在测序过程中不被破坏。

这种纳米孔单分子测序仪还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像二代测序方法那样需要事先对基因组进行一步处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。

DNA测序技术和未来

时至今日,DNA测序技术已经成为了一个很常见的工具被广泛应用于科研工作中。随着技术迭代升级,DNA测序时间和经济成本大幅下降,如下图所示就是NIH官网对于每年所消耗的经济成本进行的统计,可以看到测序的成本自第二代测序研发出来后开始快速断崖式下降,甚至超越了计算机科学中著名的摩尔定律的下降率,这就是业内经常提到的超摩尔定律现象。

测序的成本

依我愚见,接下来的测序技术发展方向大概就是通量提升、速度提升以及成本降低吧。只有一个技术成本降低,才能真正飞进寻常百姓家,才能为大众创造意义。有句老话说“21世纪是生命科学的世纪”,虽然这句话已经成为了调侃,但生命科学所蕴含的巨大潜力确实带来了很多新兴的研究方向。也因此,未来的测序技术一定会逐步迭代,以获得最经济的效益吧。