<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[karken2 构建nt库]]></title><description><![CDATA[<h1>karken2 构建nt库</h1>
<p dir="auto">karken2手册：<a href="https://github.com/DerrickWood/kraken2/wiki/Manual" rel="nofollow ugc">https://github.com/DerrickWood/kraken2/wiki/Manual</a></p>
<h2>一、简述构建标准库</h2>
<pre><code class="language-bash">kraken2-build --standard --db $DBNAME
# $DBNAME 是一个本地路径
</code></pre>
<p dir="auto"><code>--standard </code> 指令构建标准库，将下载NCBI分类信息，以及细菌、古细菌和病毒的完整基因组，以及人类基因组和一组已知载体（UniVec_Core），下载完成后将自动进行构建；</p>
<p dir="auto">构建过程非常耗时，可以使用<code>--threads xx</code> 启动多核加速构建</p>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4d2.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--ledger" title=":ledger:" alt="📒" /> <strong>注</strong>：下载过程可能由于各种原因中断，可以考虑使用其它下载工具下载，下载过程的连接和处理过程可以参考<code>standard_installation.sh</code>脚本，位于安装路径的<code>libexec</code>目录下</p>
<h2>二、构建自定义库（以nt库为例）</h2>
<h3>1. 下载物种信息</h3>
<pre><code class="language-bash">kraken2-build --download-taxonomy --db $DBNAME
</code></pre>
<p dir="auto">该命令将下载accession number和taxon的映射，以及taxonomic name和来自NCBI的树结构信息，<br />
这些文件将位于<code>$DBNAME/taxonomy/</code>目录下；</p>
<p dir="auto">如果需要修改分类，可以编辑该目录下的<code>names.dmp</code>和<code>nodes.dmp</code>文件，同时需要修改相应的<code>*.accession2taxid</code>文件</p>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4d2.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--ledger" title=":ledger:" alt="📒" /> <strong>注</strong>：该步骤使用命令下载一般没有问题，如有问题可参考 <code>download_taxonomy.sh</code> 自行下载</p>
<h4>参考脚本下载物种信息文件：</h4>
<pre><code class="language-bash"># 首先使用其它下载工具下载以下链接
# step 1:
# 核酸
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_wgs.accession2taxid.gz
# 蛋白
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
# ******* 根据需要下载核酸或蛋白的accession2taxid文件 *******
touch accmap.dlflag

# step 2:
# 下载 taxdump
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
touch taxdump.dlflag

# step 3:
## 解压缩文件
gunzip *accession2taxid.gz
tar zxf taxdump.tar.gz
touch taxdump.untarflag

</code></pre>
<h3>2. 下载一个或多个参考库</h3>
<pre><code class="language-bash">kraken2-build --download-library $LIBRARY_NAME --db $DBNAME

# LIBRARY_NAME  can be :
[
archaea(古细菌)|bacteria(细菌)|plasmid(质粒)|
viral(病毒)|human(人类)|fungi(真菌)|
plant(植物)|protozoa(原生动物)|nr(非冗余蛋白库)|
nt(非冗余核酸库)|UniVec(**)|UniVec_Core(**)|
]
# 可以使用该命令下载多个库
</code></pre>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4d2.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--ledger" title=":ledger:" alt="📒" /> <strong>注</strong>：该命令下载nr(蛋白)库,必须使用<code>--protein</code>指令</p>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4d2.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--ledger" title=":ledger:" alt="📒" /> <strong>注</strong>：该步骤可以使用自己的参考序列且支持多个fasta文件，但是必须指明序列的分类信息，可以通过在序列ID中添加<code>kraken:taxid|XXX</code>标记，例如，可以给一个众做周知的adapter序列添加分类ID 32630 ("synthetic construct"),如下：</p>
<pre><code>&gt;sequence16|kraken:taxid|32630  Adapter sequence
CAAGCAGAAGACGGCATACGAGATCTTCGAGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA
</code></pre>
<p dir="auto"><img src="http://an.forum.genostack.com/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4d2.png?v=5opkpnl53ss" class="not-responsive emoji emoji-android emoji--ledger" title=":ledger:" alt="📒" /> <strong>注</strong>：该步骤使用命令下载一般没有问题，如有问题可参考 <code>download_genomic_library.sh</code> 自行下载</p>
<h4>参考脚本自行下载nt库：</h4>
<pre><code class="language-bash">mkdir -p $LIBRARY_DIR/nt
cd $LIBRARY_DIR/nt
rm -f nt.gz

# 使用ascp下载nt库，速度快
ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 400M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
gunzip nt.gz
mv nt library.fna

# 设置必要的环境变量，运行kraken2的处理脚本
export KRAKEN2_DIR=/home/bioinfo/miniconda2/envs/kraken2/libexec
export PATH=${KRAKEN2_DIR}:$PATH
scan_fasta_file.pl --lenient library.fna &gt;&gt; prelim_map.txt
</code></pre>
<h3>3. 构建数据库</h3>
<p dir="auto">数据准备完成，即可开始构建</p>
<pre><code class="language-bash">kraken2-build --build --db $DBNAME --threads 48
# 构建过程较慢，根据系统资源尽可能多的设置线程数
</code></pre>
<p dir="auto">构建完成后的结果文件：</p>
<ul>
<li><code>hash.k2d</code>: Contains the minimizer to taxon mappings</li>
<li><code>opts.k2d</code>: Contains information about the options used to build the database</li>
<li><code>taxo.k2d</code>: Contains taxonomy information used to build the database</li>
</ul>
]]></description><link>http://an.forum.genostack.com/topic/566/karken2-构建nt库</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 09:22:08 GMT</lastBuildDate><atom:link href="http://an.forum.genostack.com/topic/566.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 09 Mar 2022 03:04:42 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to karken2 构建nt库 on Fri, 01 Dec 2023 06:05:26 GMT]]></title><description><![CDATA[<p dir="auto">conda install -c conda-forge -c bioconda -c defaults kraken2=2.1.3 -y<br />
<a href="https://stackoverflow.com/questions/72114263/conda-install-package-zlib-conflicts-for-zlibversion-1-2-11-1-3-0a0" rel="nofollow ugc">https://stackoverflow.com/questions/72114263/conda-install-package-zlib-conflicts-for-zlibversion-1-2-11-1-3-0a0</a><br />
包冲突的解决办法</p>
]]></description><link>http://an.forum.genostack.com/post/2374</link><guid isPermaLink="true">http://an.forum.genostack.com/post/2374</guid><dc:creator><![CDATA[anneng]]></dc:creator><pubDate>Fri, 01 Dec 2023 06:05:26 GMT</pubDate></item></channel></rss>