karken2 构建nt库

ice-melt

karken2 构建nt库

karken2手册：https://github.com/DerrickWood/kraken2/wiki/Manual

一、简述构建标准库

kraken2-build --standard --db $DBNAME
# $DBNAME 是一个本地路径

--standard 指令构建标准库，将下载NCBI分类信息，以及细菌、古细菌和病毒的完整基因组，以及人类基因组和一组已知载体（UniVec_Core），下载完成后将自动进行构建；

构建过程非常耗时，可以使用--threads xx 启动多核加速构建

注：下载过程可能由于各种原因中断，可以考虑使用其它下载工具下载，下载过程的连接和处理过程可以参考standard_installation.sh脚本，位于安装路径的libexec目录下

二、构建自定义库（以nt库为例）

1. 下载物种信息

kraken2-build --download-taxonomy --db $DBNAME

该命令将下载accession number和taxon的映射，以及taxonomic name和来自NCBI的树结构信息，
这些文件将位于$DBNAME/taxonomy/目录下；

如果需要修改分类，可以编辑该目录下的names.dmp和nodes.dmp文件，同时需要修改相应的*.accession2taxid文件

注：该步骤使用命令下载一般没有问题，如有问题可参考 download_taxonomy.sh 自行下载

参考脚本下载物种信息文件：

# 首先使用其它下载工具下载以下链接
# step 1:
# 核酸
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_wgs.accession2taxid.gz
# 蛋白
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
# ******* 根据需要下载核酸或蛋白的accession2taxid文件 *******
touch accmap.dlflag

# step 2:
# 下载 taxdump
[ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
touch taxdump.dlflag

# step 3:
## 解压缩文件
gunzip *accession2taxid.gz
tar zxf taxdump.tar.gz
touch taxdump.untarflag

2. 下载一个或多个参考库

kraken2-build --download-library $LIBRARY_NAME --db $DBNAME

# LIBRARY_NAME  can be :
[
archaea(古细菌)|bacteria(细菌)|plasmid(质粒)|
viral(病毒)|human(人类)|fungi(真菌)|
plant(植物)|protozoa(原生动物)|nr(非冗余蛋白库)|
nt(非冗余核酸库)|UniVec(**)|UniVec_Core(**)|
]
# 可以使用该命令下载多个库

注：该命令下载nr(蛋白)库,必须使用--protein指令

注：该步骤可以使用自己的参考序列且支持多个fasta文件，但是必须指明序列的分类信息，可以通过在序列ID中添加kraken:taxid|XXX标记，例如，可以给一个众做周知的adapter序列添加分类ID 32630 ("synthetic construct"),如下：

>sequence16|kraken:taxid|32630  Adapter sequence
CAAGCAGAAGACGGCATACGAGATCTTCGAGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA

注：该步骤使用命令下载一般没有问题，如有问题可参考 download_genomic_library.sh 自行下载

参考脚本自行下载nt库：

mkdir -p $LIBRARY_DIR/nt
cd $LIBRARY_DIR/nt
rm -f nt.gz

# 使用ascp下载nt库，速度快
ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 400M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
gunzip nt.gz
mv nt library.fna

# 设置必要的环境变量，运行kraken2的处理脚本
export KRAKEN2_DIR=/home/bioinfo/miniconda2/envs/kraken2/libexec
export PATH=${KRAKEN2_DIR}:$PATH
scan_fasta_file.pl --lenient library.fna >> prelim_map.txt

3. 构建数据库

数据准备完成，即可开始构建

kraken2-build --build --db $DBNAME --threads 48
# 构建过程较慢，根据系统资源尽可能多的设置线程数

构建完成后的结果文件：

hash.k2d: Contains the minimizer to taxon mappings
opts.k2d: Contains information about the options used to build the database
taxo.k2d: Contains taxonomy information used to build the database

anneng

conda install -c conda-forge -c bioconda -c defaults kraken2=2.1.3 -y
https://stackoverflow.com/questions/72114263/conda-install-package-zlib-conflicts-for-zlibversion-1-2-11-1-3-0a0
包冲突的解决办法