概述
全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。SBC将不同梯度插入片段(Insert-Size)的测序文库结合短序列(Short-Reads)、双末端(Paired-End)进行测序,帮助客户在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异,实现遗传进化分析及重要性状候选基因预测。
技术路线
提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行cluster制备 (Solexa)或E-PCR (SOLiD),{zh1}利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。下图以Solexa为例,说明整个实验方案。
双末端(Paired-End)测序原理(from www. Illumina.com)
测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。
测序深度对基因组覆盖度和测序错误率的影响
(HOM:纯合体 HET:杂合体)
全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性(SNP),插入缺失(InDel,Insertion/Deletion)和结构变异(SV,Structure Variation)位点。SBC可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异, 同时完成SNP及基因组结构注释。
全基因组重测序生物信息学分析流程
1.数据量产出 总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装 与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的{zd0}可能性基因型,并组装出该个体基因组的一致序列。 3.SNP检测及在基因组中的分布 提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布 目前SBC能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。
DNA突变可诱发癌症。吸烟过程中所释放的>60种致癌化学物质可与DNA结合并对DNA链上的鸟嘌呤和腺嘌呤进行化学修饰从而产生大的加合物,该加合物改变了DNA双螺旋的结构,如果不被核苷酸剪切修复或其他的途径进行纠正,那么DNA在复制时就会按照non-Watson-Crick方式进行复制并阻止RNA聚合酶进行转录,从而引发癌症。Erin D. Pleasance等[5]近日在Nature杂志上发表文章,他们用第二代测序技术(AB SOLiD)对一个小细胞肺癌(Small-cell lung cancer, SCLC)细胞系NCI-H209基因组进行测序,以探讨烟气中的致癌物质引发了该细胞系基因组中哪些特定碱基及其周围序列的突变及细胞损伤修复路径。
测序基本数据:测序片段长度为25bp;Mate-Pair测序;产生的数据量:112Gb、39×覆盖度(NCI-H209细胞系),90Gb、31×覆盖度(正常细胞系,reference genome)。
研究结果如下: ①NCI-H209细胞系基因组中,共检测到22,910个碱基替换、65个插入缺失(Indels)、58个结构变异;在基因组的编码区,除了发现RB1 和TP53基因发生点突变和MLL2基因由于发生了G>T的颠换,从而产生了pre-stop codon外,有94个点突变直接改变了氨基酸序列,有36个属同义突变。 ②特定的碱基及其周围序列易被烟气中的多环芳烃和丙烯醛诱变。在NCI-H209细胞系基因组中,G>T/C>A是最为普遍的颠换现象,发生频率为34%;其次是G>A/C>T(21%)和A>G/T>C(19%);CpG岛外的CpG二核苷酸多发生G>T颠换,而CpG岛内的CpG二核苷酸多发生G>C颠换,说明烟气中的致癌物偏好引起甲基化的CpG二核苷酸发生颠换(图1-5)。 ③检测到转录偶联修复(Transcription-coupled repair)和表达相关的修复(Expression-linked repair)在起作用。 转录偶联修复作用机制:鸟嘌呤和腺嘌呤上大的加合物是吸烟过程中所释放的致癌化学物质引起DNA损伤的主要形式,这些大的加合物阻止了转录链上RNA聚合酶的转录过程,而转录受阻的RNA聚合酶招募核苷酸剪切修复相关因子对受损的核苷酸进行修复以避免突变发生。在TP53基因突变的肺癌细胞中,G>T颠换常出现在非转录链,表明在转录链上相同的损伤已被识别和修复。在本研究中,转录链上G和A碱基替换频率比非转录链上少,由此看来嘌呤是烟气致癌物质主要诱变靶标。另外,在NCI-H209细胞系中,转录链和非转录链上发生不同类型的突变(G>T、A>G、A>T)两条链基因表达水平也有差异,这就意味着转录偶联修复机制识别、修复不同加合物损伤的能力不同。 表达相关的修复(Expression-linked repair)作用机制:这是一种新的、更为普遍的修复机制,即,高表达的基因中,转录链及非转录链的突变频率都较低。在NCI-H209细胞系中,转录链和非转录链上发生G>A的突变,两条链上基因表达水平都很高,这就说明表达相关的修复作用比转录偶联修复作用更为重要。 ④在SCLC细胞系中,CHD7基因发生了重排。在NCI-H209细胞系中,CHD7基因3~8外显子发生连续重复,而另外2个LU-135、NCI-H2171细胞系则携带PVT1-CHD7融合基因,说明在肺癌中CHD7基因发生了周期性重排(图1-6)。 以上结果表明,第二代测序技术已成为研究与癌症相关的基因突变过程、细胞损伤修复路径、基因调控网络的强有力工具。