<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Fastq文件大小和测序覆盖度初探]]></title><description><![CDATA[<p dir="auto"><a href="https://www.genedock.com/article/2017/04/06/fastq%E6%96%87%E4%BB%B6%E5%A4%A7%E5%B0%8F%E5%92%8C%E6%B5%8B%E5%BA%8F%E8%A6%86%E7%9B%96%E5%BA%A6%E5%88%9D%E6%8E%A2/" rel="nofollow ugc">https://www.genedock.com/article/2017/04/06/fastq文件大小和测序覆盖度初探/</a><br />
Fastq文件大小和测序覆盖度初探<br />
引子<br />
在二代测序（NGS）领域中，Fastq文件大小和测序深度（即测了多少乘）是两个常用的概念，但不同人给出的Fastq文件大小与测序深度的比例可能并不一致，而且之间的关系也一直模糊不清。</p>
<p dir="auto">故，这篇博客就试图去探讨这两者的关系及其相关概念。</p>
<p dir="auto">基本概念<br />
Fastq文件的基本格式</p>
<p dir="auto">Fastq文件是二代测序行业中常用的原始序列文件。每4行表示一个read（测序序列），其格式示例如下：</p>
<p dir="auto">@SEQ_ID<br />
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT<br />
+<br />
!''<em>((((</em><strong>+))%%%++)(%%%%).1</strong>*-+*''))**55CCF&gt;&gt;&gt;&gt;&gt;&gt;CCCCCCC65</p>
<ul>
<li>第一行：序列ID；</li>
<li>第二行：序列；</li>
<li>第三行：固定为“+”；</li>
<li>第四行：序列的质量值（quality score）</li>
</ul>
<p dir="auto">Fastq文件的序列ID行</p>
<p dir="auto">对于Fastq文件中每个序列的ID行（首行），其格式并不统一，不同来源Fastq文件的首行表示不同。</p>
<p dir="auto">illumina测序仪的ID行一般包含测序仪、运行编号、flowcell ID、lane ID、tile ID、横纵轴坐标、索引序列等等</p>
<p dir="auto">（@&lt;instrument&gt;:&lt;run number&gt;:&lt;flowcell ID&gt;:&lt;lane&gt;:&lt;tile&gt;:&lt;x-pos&gt;:&lt;y-pos&gt; &lt;read&gt;:&lt;is filtered&gt;:&lt;control number&gt;:&lt;index sequence&gt;）。</p>
<p dir="auto">示例如下：</p>
<p dir="auto">@EAS139:136:FC706VJ:2:5:1000:12850 1:Y:18:ATCACG</p>
<p dir="auto">测序深度（coverage or depth）</p>
<p dir="auto">测序深度或者覆盖度（coverage or depth）是指参考序列一个碱基上比对的reads的数目。计算公式为</p>
<p dir="auto">测序深度 = reads长度 × 比对的reads数目 / 参考序列长度</p>
<p dir="auto">测序深度是NGS分析的重要质控指标。Craig Venter的文章指出全基因组应该达到30X-40X的测序深度。</p>
<p dir="auto">We report on the sequencing of 10,545 human genomes at 30×–40× coverage with an emphasis on quality metrics and novel variant and sequence discovery.</p>
<p dir="auto">人类基因组的长度</p>
<p dir="auto">对于人类全基因组来说，长度大约3Gbp（Giga-basepairs）。</p>
<p dir="auto">3,234.83 Mb (Mega-basepairs) per haploid genome</p>
<p dir="auto">对于人类外显子组来说，长度大约是30Mbp(Mega-basepairs)</p>
<p dir="auto">The exome of the human genome consists of roughly 180,000 exons constituting about 1% of the total genome, or about 30 megabases of DNA</p>
<p dir="auto">另外，对于外显子组还需要考虑捕获芯片设计的问题，如agilent和nimblegen的不同芯片捕获区域不同。</p>
<p dir="auto">各种对应关系<br />
ASCII码和文件大小<br />
Fastq文件所含内容均为ASCII码，每个ASCII码占用一个字节（Byte）空间。故Fastq文件大小 =（ID行长度 + reads长度 + 1个加号 + reads长度 + 4个换行符） × reads数目。</p>
<p dir="auto">示例如下（计算公式是(7 + 60 + 1 + 60 + 4) × 1 = 132B）：</p>
<p dir="auto">$ cat example.fastq<br />
@SEQ_ID<br />
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT<br />
+<br />
!''<em>((((</em><strong>+))%%%++)(%%%%).1</strong>*-+*''))**55CCF&gt;&gt;&gt;&gt;&gt;&gt;CCCCCCC65</p>
<p dir="auto">$ ls -lh example.fastq<br />
-rw-r--r--  1 wanghuanwei  staff   132B Mar 27 13:43 example.fastq<br />
为了简化，我们忽略第三行的加号、换行符，并认为ID行长度在0~1个read长度，故</p>
<p dir="auto">Fastq文件大小 = ~ 2.5 × reads长度 × reads数目。</p>
<p dir="auto">Fastq文件大小和Fastq.gz文件大小</p>
<p dir="auto">在传输Fastq文件过程中，经常使用gzip程序对其进行压缩，以减小文件大小，增加传输速度。而gzip对于不同Fastq文件的压缩比不同，大约在(3~5):1之间。</p>
<p dir="auto">示例如下（计算公式是291852847/65573424 = 4.45078）：</p>
<p dir="auto">$ ls -l SRR1616865_1.fq SRR1616865_1.fq.gz</p>
<p dir="auto">-rw-r--r-- 1 wanghuanwei staff(278M) 291852847 Nov 12 14:12 SRR1616865_1.fq<br />
-rw-r--r-- 1 wanghuanwei staff(63M) 65573424 Aug 29 13:12 SRR1616865_1.fq.gz<br />
故Fastq.gz文件大小 = ~ Fastq文件大小/4</p>
<p dir="auto">从Fastq文件到比对的reads数</p>
<p dir="auto">由于Fastq文件经常会进行去接头等前处理的工作，比对的reads长度与原始reads长度略有不同。此处暂时忽略。</p>
<p dir="auto">另外由于只有部分原始reads会比对(mapped)到参考基因组，因此还有一个比对率的问题。故比对的reads数目 = reads数目 × 比对率。比对率也是NGS分析的重要质控指标。</p>
<p dir="auto">总结<br />
综合以上信息：</p>
<ol>
<li>测序深度 = reads长度 × 比对的reads数目 / 参考序列长度</li>
<li>人类基因组 = ~3Gbp</li>
<li>Fastq文件大小 = ~ 2.5 × reads长度 ×reads数目</li>
<li>Fastq.gz文件大小 = ~ Fastq文件大小 / 4</li>
<li>比对的reads数目 = reads数目 × 比对率</li>
</ol>
<p dir="auto">在进行了各种近似之后（ID行的近似，参考基因组的近似，gz压缩率的近似，去接头后reads长度变化等），再假设比对率为90%，若要测30X的人类基因组需要62.5GB（Giga Base）的数据。</p>
<p dir="auto"><a href="https://zhuanlan.zhihu.com/p/40040208" rel="nofollow ugc">https://zhuanlan.zhihu.com/p/40040208</a></p>
]]></description><link>http://an.forum.genostack.com/topic/20/fastq文件大小和测序覆盖度初探</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 12:31:46 GMT</lastBuildDate><atom:link href="http://an.forum.genostack.com/topic/20.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 25 Jul 2020 09:14:38 GMT</pubDate><ttl>60</ttl></channel></rss>