CRISPR/Cas9基因工程
什么是CPISPR和Cas?
CRISPR的全称是clustered regularly interspaced short palindromic repeats,就是“成簇规律性间隔短回文重复序列”,你将很快知道它的含义;Cas是一个蛋白质大家族。在生物学里,所谓的蛋白质“家族”,可以简单地理解为彼此之间结构甚至功能比较相似的很多种蛋白质组成的集合。
CPISPR历史
1987年,石野良纯(Ishino Yoshizumi)等人在研究大肠杆菌的一个基因(iap)时,无意间发现了一段紧接着这个基因的“无法确定功能”的DNA(如图所示)。研究者注意到这段DNA同时具有如下特征,同时具有所有这些特征的DNA是以前的研究中从未发现的:
1 这段DNA中的一些小片段具有几乎相同的碱基排列方式(其中一条链是CGGTTTATCCCCGCTRRCGCGGGGAACTC)。但它们并不首尾相接,而是被另外一些排列方式多变的DNA隔开,就好像是准备好很多条相同的小段,然后把它们均匀地插入了一段杂乱排列的DNA一样。这些序列称为重复序列(repeat),而把它们隔开的杂乱排列的DNA称为间隔序列(spacer)。(如果去掉repeat中间的spacer,其模型就是生化中的回文序列。)
2 一段重复序列有29个碱基,而将它们隔开的间隔序列虽然杂乱多变,但每一段一定有32个碱基。
3 一段重复序列中有部分片段是反向互补的。比如在上图中, TCCCCGC和GCGGGGA,写出前者的反向排列(即CGCCCCT),发现它可以与GCGGGGA恰好互补,反之亦然。
这种DNA并没有立即得名,或者说只是因为类似的结构在很多细菌中被发现,而随便取了几个名字(如DR:direct repeat;TREP:tandem repeat;SRSR:short regularly spaced repeats)。然而,1989年,中田敦夫(Atsuo Nakata)、牧野公三(マキノ 公三,Kozo Makino)等人在另外两种品系的大肠杆菌,以及另外两种细菌——痢疾志贺氏菌(Shigella dysenteriae)、肠志贺氏菌(S. enterica)中再次发现了相同特征的DNA片段;1991年,彼得·赫曼斯(Peter W.M.Hermans)等人在结核分歧杆菌(Mycobacterium tuberculosis)等放线菌门(phylum Actinobacteria)成员中又发现了此类DNA;1993年,这样的DNA首次发现在古细菌——地中海嗜盐菌(Haloferax mediterranei)中。随着时间推移,科学家在越来越多的原核物种中发现了这样的DNA。到2000年,科学家确定这种序列在40%左右的真细菌和90%左右的古细菌中的存在。而且还发现在不同的细菌中,乃至在同一种细菌的不同CRISPR中,人们发现重复序列和间隔序列的排列方式、重复序列重复出现的次数都可以表现出很大差异。
在此补充一个知识点:
1 | 真细菌界与古细菌界:把真细菌等同于真菌是一个误区。20世纪最伟大的生物学家之一——Carl Woese就细菌中发现的两类已涉及到根本性的差别——如转录因子、rRNA、tRNA的类别差异——的类群提出,应该将细菌进一步分为真细菌(Eubactria)界和古细菌(Archeobacteria或者Archaea)界。古细菌经常生活在一些极端环境,如高温、高盐的环境中。 |
2002年,吕德·詹森(Ruud Jansen)将具有以上特征的DNA片段重新命名为CRISPR。也就是说,CRISPR,也即clustered regularly interspaced short palindromic repeats——“成簇规律性间隔短回文重复序列”,是DNA。在这个时候,科学家们仍然不知道它的作用是什么。
与此同时,随着测序技术的发展,科学家逐渐获得了更多细菌的基因组数据。通过比较大批细菌的基因文库,人们发现了总位于CRISPR附近的一些基因,在不同的菌种之间普遍相似。科学家最初鉴定出了4种这样的基因。这些基因被詹森命名为CRISPR-associated sequence(中文翻译:与CRISPR有关系的序列)即Cas。这4种基因分别称为Cas1-4。詹森指出:在大多数含有这4种基因的细菌中,人们发现它们在基因组中的排列顺序是Cas3-Cas4-Cas1-Cas2,CRISPR则位于这个“基因簇”的某一侧。此外,对于掘越氏热球菌(Pyrococcus horikoshii)、多杀性巴氏杆菌(Pasteurella multocida)、酿脓链球菌(Streptococcus pyogenes)等含有两个或多个CRISPR的细菌来说,在相同的细菌中,不同的CRISPR可能伴随有排列方式不同的Cas基因簇。同时,在2002年的同一篇论文里,詹森还指出,Cas1和Cas2蛋白的功能无法确定,而Cas3具有解旋酶的活性;Cas4的功能则似乎与核酸外切酶相似。
2005年,弗朗西斯科·莫吉卡(Francisco J.M.Mojica)和克里斯汀·波塞尔(Christine Pourcel)分别独立发现间隔序列的碱基排列方式与一些噬菌体或质粒的DNA片段几乎完全相同,引发了“CRISPR与抵抗外来因子有关”的猜测,他们的研究指出,如果细菌CRIPR中有与它们的某段DNA相同的序列,则该噬菌体无法侵染该细菌。
除了猜测CRISPR的抵抗作用以外,他们也同时认为一定存在某种机制能够使CRISPR将入侵的DNA的关键信息记录下来。同年,亚历山大·波罗金(Alexander Bolotin)同时发现记录的噬菌体的信息越多,对噬菌体的抵抗能力就越强。已经可以说是有大量研究表明,CRISPR/Cas的存在跟细菌的获得性免疫有关。但是这些研究仍然没有引起广泛重视。2006年,基拉·马卡洛娃(Kira S.Makarova)提出并强调Cas蛋白其实是细菌获得性免疫的效应物,并提出:CRISPR/Cas“与脊椎动物的获得性免疫极为相似”。接下来一个实验更加证实了前面的猜想。2007年,鲁道夫·巴兰戈(Rodolphe Barrangou)用嗜热链球菌做了一系列实验:在它的CRISPR的间隔序列中插入一些某种噬菌体的DNA,结果发现嗜热链球菌对这种噬菌体产生抵抗性;删除噬菌体基因组中,排列方式与细菌的间隔序列相同的DNA,结果发现细菌对该噬菌体失去免疫能力.
他们还发现CRISPR也能干扰质粒的转移。次年,约翰·范德奥斯特(John van der Oost)又证实了,CRISPR可以转录出一些特殊的RNA,这些RNA与Cas蛋白质结合成“核酸-蛋白复合体”,以此来发挥功能。实验证据和观测证据在这段时间里越来越多。最终,人们从而确切地知道了CRISPR/Cas系统。
细菌利用CRISPR/Cas来抵抗入侵者的大致机制就是:获取了入侵的噬菌体的遗传信息后,将其作为间隔序列整合进CRISPR结构,在噬菌体下次入侵时,其转录产物便能将Cas基因表达出的核酸酶定位到对应的入侵者的DNA上,核酸酶便将目标降解。
“细菌获得性免疫”的过程:
在噬菌体的DNA还是完整的的时候,未来将会被整合进CRISPR的部分称作原间隔序列(protospacer)。在紧接着原间隔序列的地方,人们发现了一个似乎被细菌当作噬菌体入侵的信号的短DNA片段,称之为“原间隔序列毗邻基序”(protospacer-adjacent motif,PAM),后者大概只有2-8个碱基。Cas在识别PAM,从而发现原间隔序列后即将其切割成小段,留下前体间隔序列(precursor spacer),并整合为CRISPR。这表明原间隔序列的选取不是随机的。每插入一个间隔序列,就要产生一个新的重复序列。通常观察到的这个操作方法是每将一段间隔序列接在原来CRISPR的末端,就复制前面一个重复序列,将新产生的重复序列与之拼接,这样一直延长;后来人们还发现另外一种插入方式,即间隔序列直接插入原来CRISPR的内部。具体如图示
当噬菌体再次入侵时, CRISPR区域转录出两种RNA分子:pre-crRNA(即crRNA的前体,就像pre-mRNA【hnRNA】一样,crRNA为CRISPR转录的最终产物),这是根据CRISPR的一条链上所有的脱氧核苷酸转录而来的;tracrRNA(反式作用crRNA,trans-acting crRNA),是根据CRISPR中另一条链上的所有重复序列转录而来的,它具有发卡状(或者棒棒糖状)结构。tracrRNA具有没有形成棒棒糖结构的部分,可以与pre-crRNA对应的部分形成互补双链(因为tracrRNA与pre-crRNA分别转录于CRISPR的两条DNA链)。由于CRISPR中掺杂的是好几种入侵者的遗传信息,而细菌只需要其中一种,所以在pre-crRNA和tracrRNA与Cas9结合后,再经过一种RNA酶——RNase III和Cas9本身的共同作用后,便可形成多种成熟的crRNA-Cas9。Cas9蛋白、crRNA与tracrRNA共同结合成为了细菌对抗入侵者的“军火”。
Cas9蛋白具有识别、解旋、剪切的功能,这些功能仰赖了Cas9蛋白中不同的结构域。Cas9蛋白由两个“叶”(lobe)组成,大致分别具有识别和核酸酶的功能,故分别叫作REC叶和NUC叶;有几个关键的结构域:RuvC和HNH结构域发挥核酸内切酶的功能(即“剪刀”);REC1和REC2结构域的功能是识别与结合,将Cas9蛋白锚定在目标DNA上并沿线移动;PI即PAM interacting,能识别并定位到PAM序列。
这个三聚体随后扫描外源DNA并沿着它滑动,直到crRNA中间隔序列的部分互补到原间隔序列,并且Cas9蛋白的PI结构域识别PAM——从而定位到此处,并从此处将外源DNA切开,制造出一个双链断裂(double-strand breaks,DSB),即可让外源DNA无法表达。
自此,“细菌的获得免疫“过程基本结束。然后谈一下CRISPR/Cas9是怎样用于基因编辑的。
####CPISPR用于基因工程
为了简化操作过程,研究人员将tracrRNA-crRNA改装成了一个单股向导RNA(single guide RNA,gRNA),它与Cas9结合并靶向DNA的分子结构如图所示。sgRNA-Cas9进入细胞核并识别PAM序列和靶序列后,在其后方3个碱基的地方切断DNA,并产生平末端切口。(为便于对比,再放上自然细菌的CRISPR/Cas9系统图示)
在真核细胞中,对于断裂的DNA,它们拥有两种DNA修复方式——同源重组修复(homologous recombination,HR)和非同源末端连接(non-homologous end joining,NHEJ)。利用同源重组修复,细胞通常会以某一模板链(通常是另一条同源染色体)对缺损的另一条链进行修复(如图)【这也是基因工程中所用的】。而利用非同源末端连接,细胞亦会先制造黏性末端,但在之后会直接将断口接起来。对于科学家们来说:一方面,如果利用非同源末端连接,我们就可以删除片段或者敲低基因(断裂部分随机大概率以无用序列填充)【这也是突变的一种,可能随机填充的序列恰好具有某种功能】;如果人工构造同源重组修复的模板,我们就可以实现基因的敲入、修改、融合等。只要我们构建好了CRISPR/Cas9工具的诸零件载体,将其送入细胞核,就能按照我们的需要编辑基因了,这张图就展现了一种典型的CRISPR/Cas9基因编辑的操作方法。为了将编辑工具顺利转入细胞核,科学家探索出了在载体上插入核定位信号,以及电穿孔和利用病毒整合的方法。