暗能星系

    • 登录
    • 搜索

    烟草数据分析

    植物基因组学
    1
    2
    11
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • M
      mengpf 最后由 mengpf 编辑

      单样本跑完后在103.114.101.5上执行合并

      结果查看

      http://103.114.101.5:32000/#/login
      账号:anneng
      密码:Genostack2024

      质量评估

      以下步骤所有结果都在/cephfs_data/genostack_data_bak/yancao/vcftools里面

      1. gatk VariantEval

      gatk VariantEval \
      -R reference.fa \
      -eval input.vcf.gz \
      -O output.eval.grp \
      --eval-module TiTvVariantEvaluator \
      --eval-module CountVariants \
      --eval-module IndelSummary \
      --eval-module MultiallelicSummary
      
      • TiTvVariantEvaluator: 计算转换颠换比,评估SNP质量

      • CountVariants: 统计变异位点数量

      • IndelSummary: 统计插入缺失变异的长度分布

      • MultiallelicSummary: 统计多等位基因位点的数量和频率

      结果解读
      1. output.eval.grp (GATK VariantEval 输出):

        这个文件包含了 GATK VariantEval 的评估结果。你需要仔细查看其中的不同部分:

        • TiTvVariantEvaluator: 查找 "nTi" (转换数量)、"nTv" (颠换数量) 和 "tiTvRatio" (Ti/Tv 比率)。比较 Ti/Tv 比率与预期值 (通常在 2.0-2.1 之间)。
        • CountVariants: 查找 "nSNPs" (SNP 数量)、"nInsertions" (插入数量)、"nDeletions" (缺失数量) 和 "nIndels" (插入缺失数量)。评估变异数量是否符合预期。
        • IndelSummary: 查找 "insertion_to_deletion_ratio" (插入/缺失比)。评估插入和缺失的比例是否平衡。
        • MultiallelicSummary: 查找 "nMultiAllelic" (多等位基因位点数量) 和 "total_sites" (总位点数)。计算多等位基因位点的比例,评估是否过高。

      2. vcftools

      # 计算每个位点的覆盖度
      vcftools --gzvcf input.vcf.gz --site-mean-depth --out result
      
      # 计算等位基因频率
      vcftools --gzvcf input.vcf.gz --freq2 --max-alleles 2 --out result
      
      # 计算缺失率
      vcftools --gzvcf input.vcf.gz --missing-site --out result
      
      # Hardy-Weinberg平衡检验
      vcftools --gzvcf input.vcf.gz --hardy --out result
      
      结果解读
      1. result.frq (VCFtools 等位基因频率输出):

        这个文件包含了每个变异位点的等位基因频率信息。

        • 查看 "MAF" (次要等位基因频率) 列,评估 MAF 分布是否合理。通常希望看到一个连续的频率分布,而不是过多的低频或高频等位基因。
        • 注意 MAF 为 0 的位点可能表示单态位点 (所有样本都是相同的基因型)。
      2. result.hwe (VCFtools Hardy-Weinberg 平衡检验输出):

        这个文件包含了每个变异位点的 Hardy-Weinberg 平衡检验结果。

        • 查看 "P" 列,该列表示位点偏离 Hardy-Weinberg 平衡的 p 值。
        • 使用合适的 p 值阈值 (如 0.05 或经过多重检验校正的阈值) 来确定显著偏离 Hardy-Weinberg 平衡的位点数量。
        • 如果大量位点显著偏离 Hardy-Weinberg 平衡,可能表明存在群体分层、选择压力或基因型分型错误。
      3. result.ldepth.mean (VCFtools 位点平均覆盖度输出):

        这个文件包含了每个位点的平均覆盖度信息。

        • 查看 "MEAN_DEPTH" 列,评估平均覆盖度是否足够高 (如 >20X)。
        • 注意覆盖度过低 (<10X) 或过高 (>100X) 的位点,这些位点的变异检测可能不可靠。
      4. result.lmiss (VCFtools 位点缺失率输出):

        这个文件包含了每个位点的缺失率信息。

        • 查看 "F_MISS" 列,该列表示每个位点的缺失率 (缺失样本数/总样本数)。
        • 评估缺失率是否过高 (如 >10%)。高缺失率可能表明测序质量低或样本质量差。
      1 条回复 最后回复 回复 引用 0
      • M
        mengpf 最后由 编辑

        参考

        https://gatk.broadinstitute.org/hc/en-us/articles/360035531572-Evaluating-the-quality-of-a-germline-short-variant-callset

        1 条回复 最后回复 回复 引用 0
        • First post
          Last post
        Powered by 暗能星系