完整版Illumina测序基础知识

(完整 word 版)Illumina 测序基础知识第一个要给大家讲的，是它这个 flowcell。Flowcell 翻成中文，就叫“流动池”. 我们来看这个图片。图片当中,我们看到一个象载玻片大小的芯片.这个芯片里面，是做了 8 条通道。在这个通道的内表面，是做了专门的化学修饰。它的化学修饰，主要是用 2 种 DNA引物，把它(2 种 DNA 引物）种在玻璃表面。这两种（DNA 引物的）序列是和接下来要测序的DNA 文库的接头序列相互补的。而且这2 种引物是通过共价键，连到 Flowcell 上去。之所以要用共价键连到 Flowcell 上去，是因为接下来有大量的液体要流过这个 Flowcell，只有有共价键连接的这些 DNA，才不会被冲掉。这就是 Flowcell。文库制作文库制作再接下来,讲一下文库、和文库的制作（过程) 所谓的 DNA 文库，实际上是许多个 DNA 片段，在两头接上了特定的 DNA 接头，型成的 DNA 混合物。文库有 2 个特点,第 1 个特点，是当中这一段插入的DNA，它的序列是各种各样的。第2 个特点，它的两头的接头序列,是已知的,而且是人工特地加上去的。要做这个文库，首先是把基因组 DNA,用超声波打断.然后打断之后，两头用酶把它补平，再用 Klenow 酶在 3’端加上一个 A 碱基.然后，再用连接酶把这个接头给连上去. 连好了接头的 DNA 混合物，我们就称为一个“文库”。英文也称作“library”。桥式桥式 PCRPCR 做好了 Library 之后，就要做桥式 PCR 了。桥式 PCR,实际上是把文库种到芯片上去,然后进行扩增,这样的一个过程. 这个过程，首先是把文库加入到芯片上，因为文库两头的 DNA 序列，和芯片上引物是互补的,所以,就会产生互补杂交. 1 (完整 word 版)Illumina 测序基础知识杂交完了之后，我们在这里面加入 dNP 和聚合酶。聚合酶会从引物开始，延着模板合成出一条全新的 DNA 链来。新的这条链，和原来的序列是完全互补的。接下来,我们再加入 NaOH 碱溶液。DNA 双链在 NaOH 碱溶液存在下，就解链了。而且被液流一冲，原来的那个（模板）链，也就是没有和芯片共价连接的链，就被冲走了。而和芯片共价连接的链,就被保留下来。然后，我们再在液流池里加入中性液体，主要是为了中和这个碱液,在加入中和液之后,整个环境变成中性了。这时侯，DNA 链上的另外一端,就会和玻璃板上的第二种引物，发生互补杂交。接下来，我们加入酶和 dNTP，聚合酶就延着第二个引物，合成出一条新链来；然后，我们再加碱，把 2 条链解链解开；然后，我们再加中和液，这时侯,DNA 链会和新的引物杂交。再加酶, 再加 dNTP，又从新引物合成出新的链来。连续重复这一过程，DNA 链的数量,就会以指数方式增长. 制备单链制备单链在桥式 PCR 完成之后，接下来要做的工作，就是要把合成的双链，变成可以测序的单链。办法是通过一个化学反应,把其中一个引物上的一个特定的基团给切断掉。然后，再用碱溶液来洗这个芯片。这时侯,碱让 DNA 的双链解链，那根被切断了根的 DNA 链就被水冲掉了。留下那根共价键连在(芯片)上面的链. 接下来，再加入中性溶液，然后在这个中性溶液里面加入测序引物。正式测序正式测序好,接下来正式的测序工作就开始了。那么，在测序的时侯，加入进去的,最主要是 2 个东西：一个是带荧光标记的 dNTP。而这个 dNTP，它还有一个特点，它的 3’末端是被一个叠氮基堵住的。 2 (完整 word 版)Illumina 测序基础知识然后,再加一个聚合酶,聚合酶就会选择:哪一个 dNTP 是和原来位置上的那个碱基是互补的，根据互补性原理,把这个 dNTP 合成到新的这个 DNA 链上去。因为这个 dNTP 的 3’端是被一个叠氮基团堵住了,所以，它一个循环只能延长一个碱基。然后，它就停在那儿了. 合成完了之后，就用水把多余的 dNTP 和酶给冲掉. 冲掉之后，就放到显微镜下，去进行激光扫描.根据发出来的荧光来判断它是哪个碱基。因为 4 种 dNTP，它每一种 dNTP 上面标的荧光素都不一样,根据红、黄、蓝、绿，它出来的哪种颜色，那么，就可以倒过来推出来,这个新合成上去的碱基，是哪种碱基。因为新合成的碱基，是和原来位置(的碱基）是互补的，所以，又推出模板上那个碱基是哪个. 这一个循环完成之后，就加入一些化学试剂，把叠氮基团和旁边标记的荧光基团切掉。切完了之后,3 端的羟基就暴露出来。再接下来，加入新的 dNTP 和新的酶，然后，又延长一个碱基。新延长完一个碱基之后，把多余的酶和 dNTP 冲掉，再进行一轮显微的激光扫描，再读一下这个碱基是什么。不断重复这个过程,可以重复上百次，到几百次，就可以把上百个碱基,甚至更多碱基的序列读出来。读读 IndexIndex 那么，什么是 Index 哪？是因为 Illumina 的评委会个测序量很大，往往一个样本，用不了那么几亿条 DNA.所以，科学家就想了一个办法.在文库的接头上做了一些标记，每一个样本,它有一个特定的接头，每个接头里面，它有一段特定的序列。这段特定的序列，我们就称为 Index。也有人把它叫做 Barcode，反正，表达的是一个意思:这么一段特定的序列,标记了样本的来源。那么，要读这个 Index 的序列，先用碱把上面这根测完“Read 1”的序列，把上面这根 DNA 链给解链掉。 3 (完整 word 版)Illumina 测序基础知识解链掉之后,再加入中性液，然后,加入“Read 2”这个测序引物。Read 2 测序引物结合的位点, 正好，就在这个 Index 序列的旁边. 接下来,就进行第 2 轮测序，一般来说，是读 6 到 8 个碱基。把这 6 到 8 个碱基读下来，我们就可以知道,这某一个具体的一段 DNA，它来自于原始的哪个样本. 双端测序双端测序这是 Illumina 的最核心的另外一个技术，就是双端测序。那么双端测序，就是说,一根 DNA 链，除了从正向读一遍，还可以从 DNA 的负向,再读一遍。这一下子就把 Illumina 测序的有效长度加了一倍。这是非常有实际用途的。那么这个倒链的过程，是这样,先让这个 DNA 先合成，合成出来这根互补链. 有了这个互补链之后，用一个化学试剂,在原来这根链的根上切一下。切一下，原来这根模板链就掉了，剩下那根互补链. 再接下来，就进行第 2 端的测序。第 2 端的测序原理，和第一端的测序原理是一样的。加上了“Read 3“的这个引物，依次往下,一个一个碱基地往下读。大规模平行测序大规模平行测序那么最重要的事情是什么呢?一个点，经过几百个循环，就读出了几百个碱基.但实际上，这个芯片上可以有上亿个点，上亿个“cluster”，也就是“簇“。那么上亿个“cluster”，每个循环,它都可以读出地么多序列,这是 Illumina 测序非常强大的原因.因为是成千上万，准确说是上亿上链都在合成，这个就得到了很大的一个测序数