<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[烟草数据分析]]></title><description><![CDATA[<p dir="auto">单样本跑完后在103.114.101.5上执行合并</p>
<h3>结果查看</h3>
<p dir="auto"><a href="http://103.114.101.5:32000/#/login" rel="nofollow ugc">http://103.114.101.5:32000/#/login</a><br />
账号：anneng<br />
密码：Genostack2024</p>
<h3>质量评估</h3>
<p dir="auto"><strong>以下步骤所有结果都在<code>/cephfs_data/genostack_data_bak/yancao/vcftools</code>里面</strong></p>
<h4>1. gatk VariantEval</h4>
<pre><code>gatk VariantEval \
-R reference.fa \
-eval input.vcf.gz \
-O output.eval.grp \
--eval-module TiTvVariantEvaluator \
--eval-module CountVariants \
--eval-module IndelSummary \
--eval-module MultiallelicSummary
</code></pre>
<blockquote>
<ul>
<li>
<p dir="auto">TiTvVariantEvaluator: 计算转换颠换比,评估SNP质量</p>
</li>
<li>
<p dir="auto">CountVariants: 统计变异位点数量</p>
</li>
<li>
<p dir="auto">IndelSummary: 统计插入缺失变异的长度分布</p>
</li>
<li>
<p dir="auto">MultiallelicSummary: 统计多等位基因位点的数量和频率</p>
</li>
</ul>
</blockquote>
<h5>结果解读</h5>
<ol>
<li>
<p dir="auto">output.eval.grp (GATK VariantEval 输出):</p>
<p dir="auto">这个文件包含了 GATK VariantEval 的评估结果。你需要仔细查看其中的不同部分:</p>
<ul>
<li>TiTvVariantEvaluator: 查找 "nTi" (转换数量)、"nTv" (颠换数量) 和 "tiTvRatio" (Ti/Tv 比率)。比较 Ti/Tv 比率与预期值 (通常在 2.0-2.1 之间)。</li>
<li>CountVariants: 查找 "nSNPs" (SNP 数量)、"nInsertions" (插入数量)、"nDeletions" (缺失数量) 和 "nIndels" (插入缺失数量)。评估变异数量是否符合预期。</li>
<li>IndelSummary: 查找 "insertion_to_deletion_ratio" (插入/缺失比)。评估插入和缺失的比例是否平衡。</li>
<li>MultiallelicSummary: 查找 "nMultiAllelic" (多等位基因位点数量) 和 "total_sites" (总位点数)。计算多等位基因位点的比例,评估是否过高。</li>
</ul>
</li>
</ol>
<h4>2. vcftools</h4>
<pre><code># 计算每个位点的覆盖度
vcftools --gzvcf input.vcf.gz --site-mean-depth --out result

# 计算等位基因频率
vcftools --gzvcf input.vcf.gz --freq2 --max-alleles 2 --out result

# 计算缺失率
vcftools --gzvcf input.vcf.gz --missing-site --out result

# Hardy-Weinberg平衡检验
vcftools --gzvcf input.vcf.gz --hardy --out result
</code></pre>
<h5>结果解读</h5>
<ol start="2">
<li>
<p dir="auto">result.frq (VCFtools 等位基因频率输出):</p>
<p dir="auto">这个文件包含了每个变异位点的等位基因频率信息。</p>
<ul>
<li>查看 "MAF" (次要等位基因频率) 列,评估 MAF 分布是否合理。通常希望看到一个连续的频率分布,而不是过多的低频或高频等位基因。</li>
<li>注意 MAF 为 0 的位点可能表示单态位点 (所有样本都是相同的基因型)。</li>
</ul>
</li>
<li>
<p dir="auto">result.hwe (VCFtools Hardy-Weinberg 平衡检验输出):</p>
<p dir="auto">这个文件包含了每个变异位点的 Hardy-Weinberg 平衡检验结果。</p>
<ul>
<li>查看 "P" 列,该列表示位点偏离 Hardy-Weinberg 平衡的 p 值。</li>
<li>使用合适的 p 值阈值 (如 0.05 或经过多重检验校正的阈值) 来确定显著偏离 Hardy-Weinberg 平衡的位点数量。</li>
<li>如果大量位点显著偏离 Hardy-Weinberg 平衡,可能表明存在群体分层、选择压力或基因型分型错误。</li>
</ul>
</li>
<li>
<p dir="auto">result.ldepth.mean (VCFtools 位点平均覆盖度输出):</p>
<p dir="auto">这个文件包含了每个位点的平均覆盖度信息。</p>
<ul>
<li>查看 "MEAN_DEPTH" 列,评估平均覆盖度是否足够高 (如 &gt;20X)。</li>
<li>注意覆盖度过低 (&lt;10X) 或过高 (&gt;100X) 的位点,这些位点的变异检测可能不可靠。</li>
</ul>
</li>
<li>
<p dir="auto">result.lmiss (VCFtools 位点缺失率输出):</p>
<p dir="auto">这个文件包含了每个位点的缺失率信息。</p>
<ul>
<li>查看 "F_MISS" 列,该列表示每个位点的缺失率 (缺失样本数/总样本数)。</li>
<li>评估缺失率是否过高 (如 &gt;10%)。高缺失率可能表明测序质量低或样本质量差。</li>
</ul>
</li>
</ol>
]]></description><link>http://an.forum.genostack.com/topic/1061/烟草数据分析</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 12:36:42 GMT</lastBuildDate><atom:link href="http://an.forum.genostack.com/topic/1061.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 07 Apr 2024 07:08:30 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 烟草数据分析 on Sun, 07 Apr 2024 07:17:59 GMT]]></title><description><![CDATA[<p dir="auto">参考</p>
<p dir="auto"><a href="https://gatk.broadinstitute.org/hc/en-us/articles/360035531572-Evaluating-the-quality-of-a-germline-short-variant-callset" rel="nofollow ugc">https://gatk.broadinstitute.org/hc/en-us/articles/360035531572-Evaluating-the-quality-of-a-germline-short-variant-callset</a></p>
]]></description><link>http://an.forum.genostack.com/post/2561</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2561</guid><dc:creator><![CDATA[mengpf]]></dc:creator><pubDate>Sun, 07 Apr 2024 07:17:59 GMT</pubDate></item></channel></rss>