<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Stacks分析RAD-Seq数据的内部原理]]></title><description><![CDATA[<p dir="auto">一，背景知识<br />
1.Restriction enzymes<br />
限制酶是DNA切割酶。 每种酶识别一个或几个靶序列，并在这些序列处或附近切割DNA。 DNA连接酶（DNA ligase）是一种DNA连接酶。 如果两个DNA的末端匹配，则连接酶可以将它们连接起来，形成一个单一的，不间断的DNA分子。这种酶最早在细菌中发现，细菌使用这种机制来切割外部病毒，达到防御目的，因此叫限制酶。<br />
<img src="/assets/uploads/files/1621591836399-14887b3b-e335-4410-840f-ffc8a2a549da-image.png" alt="14887b3b-e335-4410-840f-ffc8a2a549da-image.png" class=" img-responsive img-markdown" /><br />
<img src="/assets/uploads/files/1621591854708-904870d2-4e0f-417c-89db-0f6d128f2b6e-image.png" alt="904870d2-4e0f-417c-89db-0f6d128f2b6e-image.png" class=" img-responsive img-markdown" /><br />
酶切点根据不同的酶的特性，会产生粘性端和钝端等情况。<br />
<img src="/assets/uploads/files/1621591927424-763f8e5f-08b4-4a2e-89e1-78c302b6f8b5-image.png" alt="763f8e5f-08b4-4a2e-89e1-78c302b6f8b5-image.png" class=" img-responsive img-markdown" /><br />
<img src="/assets/uploads/files/1621591948834-faba6be0-1dba-4ed7-ba74-46343650425a-image.png" alt="faba6be0-1dba-4ed7-ba74-46343650425a-image.png" class=" img-responsive img-markdown" /><br />
2.RAD-Seq<br />
RAD-Seq就是首先使用酶切，将整个基因组酶切，然后两端加接头构建文库，上机进行单端或者双端测序。<br />
<img src="/assets/uploads/files/1621590934999-92fadba6-7b13-4db3-b888-af7c38dae154-image.png" alt="92fadba6-7b13-4db3-b888-af7c38dae154-image.png" class=" img-responsive img-markdown" /></p>
<p dir="auto">二，Stacks分析原理<br />
Stacks是分析RAD-Seq数据的常用流程，流程采用模块化设计，从RAD原始序列预处理到Call SNP以及最后的下游分析，涉及多个子模块，整体过程如下：<br />
<img src="/assets/uploads/files/1621569698861-a9fc4f06-817a-4e7e-b66a-a1682a0ee37f-image-resized.png" alt="a9fc4f06-817a-4e7e-b66a-a1682a0ee37f-image.png" class=" img-responsive img-markdown" /><br />
本文从源码层面梳理一下几个核心模块的内部实现：<br />
2.1 数据准备<br />
我们使用 ddrage软件来生产ddrad-seq的模拟数据，使用默认参数产生三个个体的数据<br />
2.2 原理分析<br />
1.process_radtags<br />
对原始序列做质控.从Rad-seq图中可以看出，建库后的序列包括adaptor+barcode(index)+酶切点，adaptor用于引导测序，barcode用于标识单个样本，也叫index。通常情况下illumina会自动把adaptor和barcode切除，所以大部分情况radseq的序列头都是酶切后的序列。举一个实际例子，来看看RAD-Seq拿到的序列是什么样子：<br />
假设某实验用的两个酶是SacI 和MseI ，<br />
SacI 酶：<br />
<img src="/assets/uploads/files/1621592694666-9f541fce-4bed-48bb-a597-02c372d68971-image.png" alt="9f541fce-4bed-48bb-a597-02c372d68971-image.png" class=" img-responsive img-markdown" /><br />
Fastq中的R1 reads头是：<br />
<img src="/assets/uploads/files/1621592765711-3382ff96-da1f-4113-ba8f-451c009090cb-image.png" alt="3382ff96-da1f-4113-ba8f-451c009090cb-image.png" class=" img-responsive img-markdown" /><br />
MseI 酶：<br />
<img src="/assets/uploads/files/1621592811664-870153ec-1b90-4046-9fb4-231d92a03419-image.png" alt="870153ec-1b90-4046-9fb4-231d92a03419-image.png" class=" img-responsive img-markdown" /><br />
Fastq中的R2 reads头是：<br />
<img src="/assets/uploads/files/1621592890151-09462237-c9b5-455b-9017-788f99af105f-image.png" alt="09462237-c9b5-455b-9017-788f99af105f-image.png" class=" img-responsive img-markdown" /></p>
<p dir="auto">1.1 检查barcode、酶切点的完整性<br />
1.2 根据barcode拆分样本<br />
1.3 计算序列平均质量，丢弃低于90%平均质量的序列</p>
<p dir="auto">处理完原始数据后，根据是否有参考序列或者是否希望用参考序列，会走两个完全不同的流程。<br />
2.无参考基因组的de novo过程：<br />
Stacks 1.0 [3] 中对de novo 过程做了详细描述<br />
<img src="/assets/uploads/files/1621837722037-c06b4be9-3708-4976-8502-a105087e7691-image.png" alt="c06b4be9-3708-4976-8502-a105087e7691-image.png" class=" img-responsive img-markdown" /><br />
2.1 ustacks<br />
上图中蓝色框中的A~F步骤详细说明了ustacks的步骤，具体如下：<br />
nohup ./stack2_ustacks.sh &amp;<br />
A 将单个样本中的序列分类为stack stack中的序列被称为primary序列<br />
B 将stack拆分为kmer字典　并通过查询该字典找出相似的stack<br />
C 相似的stack成为匹配　用图中的连线连接　匹配的节点合并为loci 不在stack中的序列被称为二级序列(secondary reads)<br />
D 将二级序列也和loci进行比较　用以增加比较深度<br />
E 构建一致性序列(consensus sequence)来记录分型和snp信息<br />
2.2 cstacks<br />
2.3 sstacks<br />
maximum likelihood statistical model<br />
3.有参考基因组的过程：</p>
<p dir="auto">讨论一：是否使用参考基因组？</p>
<p dir="auto">参考:<br />
1.N. Rochette, A. Rivera‐Colón, and J. Catchen. Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics. Molecular Ecology, 28(21):4737-4754. 2019.<br />
2.<a href="https://www.floragenex.com/sbg-ddrad-seq" rel="nofollow ugc">https://www.floragenex.com/sbg-ddrad-seq</a><br />
3.<a href="https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3276136/" rel="nofollow ugc">https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3276136/</a><br />
Stacks: Building and Genotyping Loci De Novo From Short-Read Sequences</p>
]]></description><link>http://an.forum.genostack.com/topic/307/stacks分析rad-seq数据的内部原理</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 09:36:37 GMT</lastBuildDate><atom:link href="http://an.forum.genostack.com/topic/307.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 21 May 2021 06:00:36 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Stacks分析RAD-Seq数据的内部原理 on Thu, 27 May 2021 01:50:41 GMT]]></title><description><![CDATA[<p dir="auto">编译调试版本<br />
./configure CFLAGS='-g -O0' CXXFLAGS='-g -O0'</p>
]]></description><link>http://an.forum.genostack.com/post/626</link><guid isPermaLink="true">http://an.forum.genostack.com/post/626</guid><dc:creator><![CDATA[anneng]]></dc:creator><pubDate>Thu, 27 May 2021 01:50:41 GMT</pubDate></item></channel></rss>