De Novo测序前的准备
-
https://www.novogene.com/tech/service/Survey/qa/
为什么一定要做Survey?
Survey是评估基因组的有效手段,对于没有参考基因组的物种,在启动de novo 项目之前,对基因组特征评估是十分必要的,基因组大小及复杂状况直接影响到项目价格,周期以及后续的组装策略等。Q
Survey评估和流式细胞仪评估有什么区别?
两者都可以对基因组的大小进行评估,Survey评估中的K-mer分析是从数学角度上进行分析的,得到的信息更为全面和准确。而流式则是通过实验的手段,主要通过已知内参物种基因组大小来评估被测物种的基因组大小。由于内参选择不同,实验预估基因组大小与实际会有一些偏差。Q
做了基因组Survey是否就一定不用做流式了呢?
不是。我们一般建议老师在做Survey之前先做一下流式对基因组大小有个初步的预估。原因如下:K-mer分析中,我们把K-mer分布最多的峰为主峰,主峰前的1/2的峰称为杂合峰,把主峰后2倍的位置的峰称为重复峰。这时我们需要流式的结果来对我们的判断进行验证。根据不同峰计算的基因组大小不同,哪个和流式结果更加吻合哪个即是主峰。Q
K-mer分析时,为何选的K-mer长度不一样?
一般来说,用来估计基因组大小的K-mer我们选取17-mer,其原因是ATCG四种不通过的碱基组成的长度为17的核苷酸片段有417~17G,足以覆盖一般的正常基因组;如果选择15的话,则只有1G的可能。对于正常基因组可能覆盖度不够,导致估计不准确,当然对于较大基因组>15G,我们会尝试采用19-mer进行评估。由于Reads上存在错误碱基,K-mer并非越大越好,若K-mer选择的越大,则包含这个错误位点的K-mer的个数就会越多。
另外为了避免回文序列,K-mer分析选择K长度均为奇数。而对于高重复的重复,我们通常会选择一些长度较长的K-mer,这是因为较大的K-mer能够跨过一些高重复区域,对于组装具有较好的结果。
-
基因组Survey基于小片段文库的低深度测序数据,通过K-mer分析,从而有效的评估基因组大小、
GC含量、杂合度以及重复序列含量等信息,是全面了解某一物种基因组特征的有效方法,
为后续的全基因组de novo 测序组装策略的制定提供理论依据。分析内容=标准分析+高级分析。
通过K-mer分析,预估物种基因组大小,并对物种基因组,
重复序列情况进行分析。对基因组进行初步组装,进行GC含量和
外源污染分析。同时,基于初步组装的版本,可以进行SSR
标记开发和同源注释。

测序深度为50X,基于小片段数据,通过K-mer分析可以有效评估基因组大小、
GC含量、杂合度以及重复序列含量等信息,除此之外还可以对数据进行初步组装、
SSR标记的开发以及同源注释。



