NGS常见术语
-
高通量测序常用名词汇总 - 百度文库
请稍等...
百度文库高通量测序常用名词汇总
Q20 值是指的测序过程碱基识别( Base Calling )过程中 , 对所识别的碱基给出的错误概率 .
如果质量值是 Q20, 则错误识别的概率是 1%, 即错误率 1%, 或者正确率是 99% ;
如果质量值是 Q30, 则错误识别的概率是 0.1%, 即错误率 0.1%, 或者正确率是 99.9% ;
如果质量值是 Q40, 则错误识别的概率是 0.01%, 即错误率 0.01%, 或者正确率是 99.99% ;
你发现规律没有 ,Q“N”0 的质量值 , 就是正确率有 N 个 9 的百分比 , 这样就非常容易记忆了 .
基因高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。碱基的质量值 13 ,错误率为 5% , 20 的错误率为 1% , 30 的错误率为 0.1% 。行业中 Q20 与 Q30 则表示质量值≧ 20 或 30 的碱基所占百分比。例如一共测了 1G 的数据量,其中有 0.9G 的碱基质量值大于或等于 20 ,那么 Q20 则为 90% 。 Q20 值是指的测序过程碱基识别( Base Calling )过程中,对所识别的碱基给出的错误概率。质量值是 Q20 ,则错误识别的概率是 1% ,即错误率 1% ,或者正确率是 99% ;
质量值是 Q30 ,则错误识别的概率是 0.1% ,即错误率 0.1% ,或者正确率是 99.9% ;
质量值是 Q40 ,则错误识别的概率是 0.01% ,即错误率 0.01% ,或者正确率是 99.99% ;
一代测序技术: 即传统的 Sanger 测序法, Sanger 法是根据核苷酸在待定序列模板上的引物点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以 A 、 T 、 C 、 G 结束的四组不同长度的一系列核苷酸,每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸 (dNTP) ,并混入限量的一种不同的双脱氧核苷三磷酸 (ddNTP) 。由于 ddNTP 缺乏延伸所需要的 3-OH 基团,使延长的寡聚核苷酸选择性地在 G 、 A 、 T 或 C 处终止,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,通过检测得到 DNA 碱基序列。
二代测序技术: next generation sequencing ( NGS )又称为高通量测序技术,与传统测序相比,二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定,从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序( Deep sequencing )。 NGS 主要的平台有 Roche ( 454 & 454 + ), Illumina ( HiSeq 2000/2500 、 GA IIx 、 MiSeq ), ABI SOLiD 等。
基因 : Gene ,是遗传的物质基础,是 DNA 或 RNA 分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。
DNA : Deoxyribonucleic acid ,脱氧核糖核酸,一个脱氧核苷酸分子由三部分组成:含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过 3',5'- 磷酸二酯键按一定的顺序彼此相连构成长链,即 DNA 链, DNA 链上特定的核苷酸序列包含有生物的遗传信息,是绝大部分生物遗传信息的载体。
RNA : Ribonucleic Acid ,,核糖核酸,一个核糖核苷酸分子由碱基,核糖和磷酸构成。核糖核苷酸经磷酯键缩合而成长链状分子称之为 RNA 链。 RNA 是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。不同种类的 RNA 链长不同,行使各式各样的生物功能,如参与蛋白质生物合成的 RNA 有信使 RNA 、转移 RNA 和核糖体 RNA 等。
16S rDNA : "S" 是沉降系数,是反映生物大分子在离心场中向下沉降速度的一个指标,值越高,说明分子越大。 rDNA ( ribosome DNA )指的是原核生物基因组中编码核糖体 RNA ( rRNA )分子对应的 DNA 序列, 16S rDNA 是原核生物编码核糖体小亚基 16S rRNA 的基因。细菌 rRNA (核糖体 RNA )按沉降系数分为 3 种,分别为 5S 、 16S 和 23S rRNA 。 16S rDNA 是细菌染色体上编码 16S rRNA 相对应的 DNA 序列,存在于所有细菌染色体基因中。 16S rRNA 普遍存在于原核生物中。 16S rRNA 分子,其大小约 1540bp ,既含有高度保守的序列区域,又有中度保守和高度变化的序列区域,其可变区序列因细菌不同而异,恒定区序列基本保守,所以可利用恒定区序列设计引物,将 16S rDNA 片段扩增出来,通过高通量测序利用可变区序列的差异来对不同菌属、菌种的细菌进行分类鉴定。
cDNA : complementary DNA ,互补脱氧核糖核酸,与 RNA 链互补的单链 DNA ,以 RNA 为模板,在反转录酶的作用下所合成的 DNA 。
Small RNA :生物体内一类高度保守的重要的功能分子,其大小在 18-30nt ,包括 microRNA 、 siRNA 、 snRNA 、 snoRNA 和 piRNA ( piwi-interacting RNA )等,它的主要功能是诱导基因沉默,调控细胞生长、发育、基因转录和翻译等生物学过程。以 miRNA 为例介绍它们的功能: miRNA 与 RNA 诱导沉默复合体( RNA induced silencing complex, RISC )结合,并将此复合体与其互补的 mRNA 序列结合,根据靶序列与 miRNA 的互补程度,从而导致靶序列降解或干扰靶序列蛋白质的翻译过程。
S D 区 域: S egmen t d uplicatio n ,串联重复是由序列相近的一些 DNA 片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。
Ge n o t y p e a n d p h e n o t y p e : 基 因 型 与 表 型 , 基因型是指某一生物个体全部基因组合的总称;表型,又称性状,是基因型和环境共同作用的结果。
基因组 : Genome ,单倍体细胞核、细胞器(线粒体、叶绿体)或病毒粒子所含的全部 DNA 分子或 RNA 分子。
全基因组 de novo 测序 :又称从头测序,它不依赖于任何现有的序列资料,而直接对某个物种的基因组进行测序,然后利用生物信息学分析手段对序列进行拼接、组装,从而获得该物种的基因组序列图谱。
全基因组重测序 :对已有参考序列( Reference Sequence )物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析。全基因组重测序能够发现大量的单核苷酸多态性位点( SNP )、拷贝数变异( Copy Number Variation , CNV )、插入缺失( InDel , Insertion/Deletion )、结构变异( Structure Variation , SV )等变异类型,以准确快速的方法将单个参考基因组信息上升为群体遗传特征。
转录组 : Transcriptome ,是指特定生长阶段某组织或细胞内所有转录产物的集合;狭义上指所有 mRNA 的集合。
转录组测序 :对某组织在某一功能状态下所能转录出来的所有 RNA 进行测序,获得特定状态下的该物种的几乎所有转录本序列信息。通常转录组测序是指对 mRNA 进行测序获得相关序列的过程。其根据所研究物种是否有参考基因组序列分为转录组 de novo 测序(无参考基因组序列)和转录组重测序(有参考基因组序列)。
外显子组 : Exome ,人类基因组全部外显子区域的集合称为外显子组,是基因中重要的编码蛋白的部分,并涵盖了与个体表型相关的大部分的功能性变异。
外显子组测序 :是指利用序列捕获技术将全基因组外显子区域 DNA 捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的 SNP 、 InDel 等具有较大的优势。
目标区域测序: 应用相关试剂盒对基因组上感兴趣的目标区域进行捕获富集后进行大规模测序,一般需要根据目标区域专门定制捕获芯片。
宏基因组: Metagenome ,指特定生活环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因。目前主要指环境样品中的细菌和真菌的基因组总和。
宏基因组 16S rRNA 测序 :可以对特定环境下的细菌和古细菌群体的微生物种类和风度进行有效的鉴定。对不同地点、不同条件下的多个样本 16S rRNA 的 PCR 产物平行测序,可以比较不同样本间的微生物组成及成分差异,进而阐明物种丰度、种群结果等生态学信息。
表观遗传学 : Epigenetics ,是指在基因组 DNA 序列没有改变的情况下,基因的表达调控和性状发生了可遗传的变化。表观遗传的现象很多,已知的有 DNA 甲基化( DNA methylation ),基因组印记( genomic impriting ),母体效应( maternal effects ),基因沉默( gene silencing ),核仁显性,休眠转座子激活和 RNA 编辑( RNA editing )等。
全基因组甲基化测序 : DNA 甲基化是指在 DNA 甲基化转移酶的作用下,在基因组 CpG 二核苷酸的胞嘧啶 5' 碳位共价键结合一个甲基基团。 DNA 甲基化已经成为表观遗传学和表观基因组学的重要研究内容。甲基化是基因表达的主要调控方式之一,研究染色体 DNA 甲基化情况是了解基因调控的重要手段。对已经有参考基因组的物种的基因组 DNA 用标准亚硫酸氢盐( Bisulfite )处理后,未甲基化的胞嘧啶 C 会脱氨基形成尿嘧啶 U ,经 PCR 扩增, U 替换为胸腺嘧啶 T ,而发生甲基化的胞嘧啶 C 保持不变。将处理组与参考基因组序列进行比对,可发现甲基化位点并对甲基化情况进行定量分析的方法叫做全基因组甲基化测序。
ChIp-Seq : Chromatin Immunoprecipitation sequencing ,即染色质免疫共沉淀 - 测序技术,即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的 DNA 片段。对富集得到的 DNA 片段进行纯化与文库构建,然后进行高通量测序,从而得到全基因组范围内可以与目的蛋白相互作用的 DNA 片段的方法叫做 ChIP-Seq 。
数字表达谱 : Digital Gene Expression Profile ,利用新一代高通量测序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况,即运用特定的酶对 mRNA 距 polyA tail 21-25nt 的位置进行酶切,所获得的带 polyA 尾的序列 (Tag) 通过高通量 测序,该 tag 被测得的次数即是对应基因的表达值 。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。特点是经济,但获得的数据量有限。若想获得转录本的更多信息的话,一般都采用转录组测序的方法来测序。
SBS : sequencing by synthesis ,边合成边测序反应,是指在 DNA 聚合酶的作用下延伸碱基所进行的测序。
Run :指高通量测序平台单次上机测序反应。

图 1. Flow Cell 结构示意图
Lane :也叫 channel ,单泳道,每条泳道包含 2 列( column ),每列分布有多个小区( tile ),如图 1 。不同的测序平台 Flow Cell 中所含的 Lane 不一样,如 HiSeq 2000 是 2 个 flow cell ,每个 flow cell 中含有 8 个 lane ; HiSeq 2500 是包含 2 个 mini flow cell (快速运行模式)和 2 个 high output flow cell ,两个模式不能同时运行,其中每个 mini flow cell 包含 2 个 lane ,每个 high output flow cell 中包含 8 个 lane ; Miseq 系统的 flow cell 仅含有 1 个 lane 。
Tile : 小区,每条 Lane 中有 2 列 tile ,合计 120 个小区。每个小区上分布数目繁多的簇结合位点,如图 1 。
Cluster :簇,在 Illumina 测序平台中会采用桥式 PCR 方式生产 DNA 簇,每个 DNA 簇才能产生亮度达到 CCD 可以分辨的荧光点。
Index : 标签,在 Illumina 平台的多重测序( Multiplexed Sequencing )过程中会使用 Index 来区分样品,并在常规测序完成后,针对 Index 部分额外进行 7 个循环的测序,通过 Index 的识别,可以在 1 条 Lane 中区分 12 种不同的样品。
Barcode :与 Index 同义,多指在 Roche GS FLX 454 测序平台的 16S PCR 产物的测序过程中接头序列所包含的的用来区分不同样本的序列。
PF% : PF% 是指符合测序质量标准的簇的百分比,与测序的通量相关联。
Fasta : 一种序列存储格式。一个序列文件若以 FASTA 格式存储,则每一条序列的第一行以 “>” 开头,而跟随 “>” 的是序列的 ID 号(即唯一的标识符)及对该序列的描述信息;第二行开始是序列内容,序列短于 61nt 的,则一行排列完;序列长于 61nt 的,则每行存储 61nt ,最后剩下小于 61nt 的,在最后一行排列完;第二条序列另起一行,仍然由 “>” 和序列的 ID 号开始,以此类推。
Fastq : Fastq 是 Solexa 测序技术中一种反映测序序列的碱基质量的文件格式。第一行以 “@” 符号开头,后面紧跟一个序列的描述信息;第二行是该序列的内容;第三行以 “+” 符号开头,后面可以是该序列的描述信息,也可省略;而第四行是第二行中的序列内容每个碱基所对应的测序质量值。
R ea d : 高通量测序平台产生的序列标签就称为 reads 。
基因组组装: 进行基因组或转录组 de novo 测序时,物种基因组经构建不同的文库测序所得的片段需经过生物信息学手段对其进行整理拼接,并通过一定的标准(如 N50 )对后续组装结果进行质量评估等,最终获得高准确度的基因组序列的过程。
基因组测序深度: 测序得到的总碱基数与待测基因组大小的比值。如测一个物种的全基因组的重测序,基因组大小约为 5G ,测序获得 100G 的数据量,则测序深度为 20× 。
基因组覆盖率: 指测序获得的序列占整个基因组的比例。由于基因组中的高 GC 、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为 Gap 。例如一个细菌基因组测序,覆盖率是 98% ,那么还有 2% 的序列区域是没有通过测序获得的。
Contig : 在 de novo 测序中拼接软件基于 reads 之间的 overlap 区,拼接获得的中间没有 gap 的序列称为 Contig (重叠群)。
S ca f f o l d : 基因组 de novo 测序,通过 reads 拼接获得 Contigs 后,往往还需要构建 454 Paired-end 库或 Illumina Mate-pair 库,以获得一定大小片段(如 3Kb 、 8Kb 、 10Kb 、 20Kb )两端的序 列。基于这些序列,可以确定一些 Contig 之间的顺序关系,这些先后顺序已知的 Con t i g s 组 成 Sc a ffo l d 。
Contig N50 : Reads 拼接后会获得一些不同长度的 Contigs 。将所有的 Contig 长度相加,能获得一个 Contig 总长度。然后将所有的 Contigs 按照从长到短进行排序,如获得 Contig 1 , Contig 2 , Contig 3……Contig 25 。将 Contig 按照这个顺序依次相加,当相加的长度达到 Contig 总长度的一半时,最后一个加上的 Contig 长度即为 Contig N50 。举例: Contig 1+Contig 2+ Contig 3 +Contig 4=Contig 总长度 *1/2 时, Contig 4 的长度即为 Contig N50 。 Contig N50 可以作为基因组拼接的结果好坏的一个判断标准。
Scaffold N50 : Scaffold N50 与 Contig N50 的定义类似。 Contigs 拼接组装获得一些不同长度的 Scaffolds 。将所有的 Scaffold 长度相加,能获得一个 Scaffold 总长度。然后将所有的 Scaffolds 按照从长到短进行排序,如获得 Scaffold 1 , Scaffold 2 , Scaffold 3……Scaffold 25 。将 Scaffold 按照这个顺序依次相加,当相加的长度达到 Scaffold 总长度的一半时,最后一个加上的 Scaffold 长度即为 Scaffold N50 。举例: Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold 总长度 *1/2 时, Scaffold 5 的长度即为 Scaffold N50 。 Scaffold N50 可以作为基因组拼接的结果好坏的一个判断标准。
Isotig : 指在转录组 de novo 测序时,用 454 平台测序完成后组装出的结果,一个 isotig 可视为一个转录本。
Isogroup : 指转录组 de novo 测序中,用 454 平台测序完成后组装出的结果获得的可聚类到同一个基因的转录本群。
GC% : GC 含量, 全基因组范围内或在特定基因组序列内的 4 种碱基中,鸟嘌呤和胞嘧啶所占的比率。
SNP : single nucleotide polymorphism ,单核苷酸多态性,个体间基因组 DNA 序列同一位置单个核苷酸变异 ( 替代、插入或缺失 ) 所引起的多态性;不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、 DNA 序列等可作为基因组作图的标志。 SNP 在 CG 序列上出现最为频繁,而且多是 C 转换为 T ,原因是 CG 中的 C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言, SNP 是指变异频率大于 1 % 的单核苷酸变异,主要用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。
InDel : Insertion/Deletion ,插入 / 缺失,在基因组重测序 进行 mapping 时,进行容 Gap 的比对并检测可信的 Short InDel ,如 基因组上小片段 >50bp 的插入或缺失 。在检测过程中, Gap 的长度为 1~5 个碱基。
CNV : copy number variation ,基因组拷贝数变异,是基因组变异的一种形式,通常使基因组中大片段的 DNA 形成非正常的拷贝数量。如人类正常染色体拷贝数是 2 ,有些染色体区域拷贝数变成 1 或 3 ,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成 A-B-C-D 四个区域,则 A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发生了 C 区域的扩增及缺失,扩增的位置可以是连续扩增如 A-B-C-C-D 也可以是在其他位置的扩增,如 A-C-B-C-D 。
SV : s tructur e v a riatio n ,基因组结构变异,染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起 CNV 的变化),染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组( inter-chromosome trans-location )等。
基因表达差异: 是指某一物种或特定细胞在特定时期 / 功能状态下,多样本间不同基因在 mRNA 水平上表达量的差异,可通过 RPKM/FPKM 值来体现。
R PKM : Reads Per Kilobase per Million mapped reads [ Mo r taz a v i eta l . , 200 8 ] , 是指每 1 百万个 map 上 的 reads 中 map 到外显子的每 1K 个碱基上的 reads 个数。计算公式四 RPKM=10 6 C/NL/10 3 ,其中 C 为唯一比对到目的基因的 reads 数; N 为唯一比对到参考基因的总 reads 数, L 是目的基因编码区的碱基数。 RPKM 法可以消除基因长度、数据量之间的差异进行计算基因表达量。
可变剪切: alternative splicing 大多数真核基因转录产生的 mRNA 前体是按一种方式剪接产生出一种 mRNA ,因而只产生一种蛋白质。但有些基因产生的 mRNA 前体可按不同的方式剪接,产生出两种或更多种 mRNA ,即可变剪接。
基因融合: G ene fusio n , 将 基 因 组 位 置 不 同 的 两 个或多个 基 因 中 的 一 部 分 或 全 部 整 合 到 一 起 , 形 成 新 的 基 因 , 称 作 融 合 基 因 或 嵌 合 体 基 因 , 该 基 因 有 可 能 翻 译 出 融 合 或 嵌 合 体 蛋 白。
基因家族分析: 通过进行 BLASTN/ HMM 比对等查找基因归属的基因家族并添加相关功能注释。
基因组注释: Genome annotation 是利用生物信息学方法和工具 , 对基因组所有基因的生物学功能进行高通量注释 , 是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。常见的基因组注释有 GO 注释、 pathway 分析。
GO 注释: gene ontology 是指对基因功能的注解。 GO 强调基因产物在细胞中的功能。 GO 不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关,但 GO 支持其他的 OBO(open biology ontologies) 成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)
Pathway 注释: 是指对功能基因参与的信号通路等进行分析注释。
甲基化率: 是指在甲基化测序中,发生甲基化的胞嘧啶占所有胞嘧啶的比率。
CpG 岛: CpG island 是指 DN A 上一个区域,此区域含有大量相联的胞嘧啶( C )、鸟嘌呤( G ),以及使两者相连的磷酸酯键( p )。基因组中长度为 300 ~ 3000 bp 的富含 CpG 二核苷酸的一些区域,主要存在于基因的 5’ 区域。启动子区中 CpG 岛的未甲基化状态是基因转录所必需的,而 CpG 序列中的 C 的甲基化可导致基因转录被抑制。
全基因组测序 - 研究经过
1986 年, Renato Dulbecco 是最早提出人类基因组定序的科学家之一。他认为如果能够知道所有人类基因的序列,对 癌症 的研究将会很有帮助。 美国能源部 ( DOE )与美国国家卫生研究院( NIH ),分别在 1986 年与 1987 年加入 人类基因组计划 。除了美国之外,日本在 1981 年就已经开始研究相关问题,但是并没有美国那样积极。到了 1988 年,詹姆士 · 华生( DNA 双螺旋结构发现者之一)成为 NIH 的基因组部门主管。 1990 年开始国际合作。 1996 年,多个国家招开百慕达会议,以 2005 年完成定序为目标,分配了各国负责的工作,并且宣布研究结果将会即时公布,并完全免费。
1998 年,克莱格 · 凡特的塞雷拉基因组公司成立,而且宣布将在 2001 年完成定序工作。随後国际团队也将完成工作的期限提前。 2000 年 6 月 26 日,塞雷拉公司的代表凡特,以及国际合作团队的代表弗朗西斯 · 柯林斯( Francis Collins ),在美国总统柯林顿的陪同下发表演说,宣布人类基因组的概要已经完成。 2001 年 2 月,国际团队与塞雷拉公司,分别将研究成果发表于 《自然》 与 《科学》 两份期刊。在基因组计划的研究过程中,塞雷拉基因组使用的是 霰弹枪定序法 ( shotgun sequencing ),这种方法较为迅速 ,但是仍需以传统定序来分析细节。目前,全基因组测序技术主要包括第二代测序技术( NGS )和第三代测序技术。第二代测序技术已经能够快速、低成本的进行全基因组测序,其设备供应商主要是 Solexa (现被 Illumina 公司合并), 454 (罗氏公司)和 SOLiD ( AB 公司)。第三代测序技术于 2011 年 4 月正式推广,其单分子实时( SMRT )测序技术完全不同与第二代测序,它的序列读长高达 3000 bp ( Pacific Biosciences 公司研发)。
全基因组测序 - 技术路线
提取基因组 DNA ,然后随机打断,电泳回收所需长度的 DNA 片段( 0.2~5kb ),加上接头 , 进行基因簇 cluster 制备或电子扩增 E-PCR ,最后利用 Paired-End ( Solexa )或者 Mate-Pair ( SOLiD )的方法对插入片段进行测序。然后对测得的序列组装成 Contig ,通过 Paired-End 的距离可进一步组装成 Scaffold ,进而可组装成染色体等。组装效果与 测序深度 与覆盖度、测序质量等有关。目前常用的组装有: SOAPdenovo 、 Trimity 、 Abyss 等。
全基因组测序 - 原理
双末端( Paired-End )测序原理
测序深度( Sequencing Depth ):测序得到的碱基总量( bp )与基因组大小( Genome )的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或 Mate-Pair 方案,当测序深度在 10~15X 以上时,基因组覆盖度和测序错误率控制均得以保证。
测序深度对基因组覆盖度和测序错误率的影响
( HOM :纯合体 HET :杂合体)
全基因组重测序 的个体,通过序列比对,可以找到大量的 单核苷酸 多态性( SNP ),插入缺失( InDel , Insertion/Deletion )和结构变异( SV , Structure Variation )位点。 SBC 可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异, 同时完成 SNP 及基因组结构注释。
全基因组测序 - 分析流程
1 .数据量产出
总碱基数量、 Total Mapping Reads 、 Uniquely Mapping Reads 统计,测序深度分析。
2 .一致性序列组装
与参考基因组序列( Reference genome sequence )的比对分析,利用 贝叶斯统计模型 检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的 一致序列 。
3 . SNP 检测及在基因组中的分布
提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的 SNP 数据集。并根据参考基因组信息对检测到的变异进行注释。
4 . InDel 检测及在基因组的分布
在进行 mapping 的过程中,进行容 gap 的比对并检测可信的 short InDel 。在检测过程中, gap 的长度为 1~5 个 碱基 。对于每个 InDel 的检测,至少需要 3 个 Paired-End 序列的支持。
5 . Structure Variation 检测及在基因组中的分布
SBC 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。 -
https://www.biostars.org/p/43897/
Read group的含义