烟草数据分析
-
单样本跑完后在103.114.101.5上执行合并
结果查看
http://103.114.101.5:32000/#/login
账号:anneng
密码:Genostack2024质量评估
以下步骤所有结果都在
/cephfs_data/genostack_data_bak/yancao/vcftools里面1. gatk VariantEval
gatk VariantEval \ -R reference.fa \ -eval input.vcf.gz \ -O output.eval.grp \ --eval-module TiTvVariantEvaluator \ --eval-module CountVariants \ --eval-module IndelSummary \ --eval-module MultiallelicSummary-
TiTvVariantEvaluator: 计算转换颠换比,评估SNP质量
-
CountVariants: 统计变异位点数量
-
IndelSummary: 统计插入缺失变异的长度分布
-
MultiallelicSummary: 统计多等位基因位点的数量和频率
结果解读
-
output.eval.grp (GATK VariantEval 输出):
这个文件包含了 GATK VariantEval 的评估结果。你需要仔细查看其中的不同部分:
- TiTvVariantEvaluator: 查找 "nTi" (转换数量)、"nTv" (颠换数量) 和 "tiTvRatio" (Ti/Tv 比率)。比较 Ti/Tv 比率与预期值 (通常在 2.0-2.1 之间)。
- CountVariants: 查找 "nSNPs" (SNP 数量)、"nInsertions" (插入数量)、"nDeletions" (缺失数量) 和 "nIndels" (插入缺失数量)。评估变异数量是否符合预期。
- IndelSummary: 查找 "insertion_to_deletion_ratio" (插入/缺失比)。评估插入和缺失的比例是否平衡。
- MultiallelicSummary: 查找 "nMultiAllelic" (多等位基因位点数量) 和 "total_sites" (总位点数)。计算多等位基因位点的比例,评估是否过高。
2. vcftools
# 计算每个位点的覆盖度 vcftools --gzvcf input.vcf.gz --site-mean-depth --out result # 计算等位基因频率 vcftools --gzvcf input.vcf.gz --freq2 --max-alleles 2 --out result # 计算缺失率 vcftools --gzvcf input.vcf.gz --missing-site --out result # Hardy-Weinberg平衡检验 vcftools --gzvcf input.vcf.gz --hardy --out result结果解读
-
result.frq (VCFtools 等位基因频率输出):
这个文件包含了每个变异位点的等位基因频率信息。
- 查看 "MAF" (次要等位基因频率) 列,评估 MAF 分布是否合理。通常希望看到一个连续的频率分布,而不是过多的低频或高频等位基因。
- 注意 MAF 为 0 的位点可能表示单态位点 (所有样本都是相同的基因型)。
-
result.hwe (VCFtools Hardy-Weinberg 平衡检验输出):
这个文件包含了每个变异位点的 Hardy-Weinberg 平衡检验结果。
- 查看 "P" 列,该列表示位点偏离 Hardy-Weinberg 平衡的 p 值。
- 使用合适的 p 值阈值 (如 0.05 或经过多重检验校正的阈值) 来确定显著偏离 Hardy-Weinberg 平衡的位点数量。
- 如果大量位点显著偏离 Hardy-Weinberg 平衡,可能表明存在群体分层、选择压力或基因型分型错误。
-
result.ldepth.mean (VCFtools 位点平均覆盖度输出):
这个文件包含了每个位点的平均覆盖度信息。
- 查看 "MEAN_DEPTH" 列,评估平均覆盖度是否足够高 (如 >20X)。
- 注意覆盖度过低 (<10X) 或过高 (>100X) 的位点,这些位点的变异检测可能不可靠。
-
result.lmiss (VCFtools 位点缺失率输出):
这个文件包含了每个位点的缺失率信息。
- 查看 "F_MISS" 列,该列表示每个位点的缺失率 (缺失样本数/总样本数)。
- 评估缺失率是否过高 (如 >10%)。高缺失率可能表明测序质量低或样本质量差。
-
-