karken2 构建nt库
-
karken2 构建nt库
karken2手册:https://github.com/DerrickWood/kraken2/wiki/Manual
一、简述构建标准库
kraken2-build --standard --db $DBNAME # $DBNAME 是一个本地路径--standard指令构建标准库,将下载NCBI分类信息,以及细菌、古细菌和病毒的完整基因组,以及人类基因组和一组已知载体(UniVec_Core),下载完成后将自动进行构建;构建过程非常耗时,可以使用
--threads xx启动多核加速构建
注:下载过程可能由于各种原因中断,可以考虑使用其它下载工具下载,下载过程的连接和处理过程可以参考standard_installation.sh脚本,位于安装路径的libexec目录下二、构建自定义库(以nt库为例)
1. 下载物种信息
kraken2-build --download-taxonomy --db $DBNAME该命令将下载accession number和taxon的映射,以及taxonomic name和来自NCBI的树结构信息,
这些文件将位于$DBNAME/taxonomy/目录下;如果需要修改分类,可以编辑该目录下的
names.dmp和nodes.dmp文件,同时需要修改相应的*.accession2taxid文件
注:该步骤使用命令下载一般没有问题,如有问题可参考 download_taxonomy.sh自行下载参考脚本下载物种信息文件:
# 首先使用其它下载工具下载以下链接 # step 1: # 核酸 [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_wgs.accession2taxid.gz # 蛋白 [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz # ******* 根据需要下载核酸或蛋白的accession2taxid文件 ******* touch accmap.dlflag # step 2: # 下载 taxdump [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz touch taxdump.dlflag # step 3: ## 解压缩文件 gunzip *accession2taxid.gz tar zxf taxdump.tar.gz touch taxdump.untarflag2. 下载一个或多个参考库
kraken2-build --download-library $LIBRARY_NAME --db $DBNAME # LIBRARY_NAME can be : [ archaea(古细菌)|bacteria(细菌)|plasmid(质粒)| viral(病毒)|human(人类)|fungi(真菌)| plant(植物)|protozoa(原生动物)|nr(非冗余蛋白库)| nt(非冗余核酸库)|UniVec(**)|UniVec_Core(**)| ] # 可以使用该命令下载多个库
注:该命令下载nr(蛋白)库,必须使用--protein指令
注:该步骤可以使用自己的参考序列且支持多个fasta文件,但是必须指明序列的分类信息,可以通过在序列ID中添加kraken:taxid|XXX标记,例如,可以给一个众做周知的adapter序列添加分类ID 32630 ("synthetic construct"),如下:>sequence16|kraken:taxid|32630 Adapter sequence CAAGCAGAAGACGGCATACGAGATCTTCGAGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA
注:该步骤使用命令下载一般没有问题,如有问题可参考 download_genomic_library.sh自行下载参考脚本自行下载nt库:
mkdir -p $LIBRARY_DIR/nt cd $LIBRARY_DIR/nt rm -f nt.gz # 使用ascp下载nt库,速度快 ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 400M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./ gunzip nt.gz mv nt library.fna # 设置必要的环境变量,运行kraken2的处理脚本 export KRAKEN2_DIR=/home/bioinfo/miniconda2/envs/kraken2/libexec export PATH=${KRAKEN2_DIR}:$PATH scan_fasta_file.pl --lenient library.fna >> prelim_map.txt3. 构建数据库
数据准备完成,即可开始构建
kraken2-build --build --db $DBNAME --threads 48 # 构建过程较慢,根据系统资源尽可能多的设置线程数构建完成后的结果文件:
hash.k2d: Contains the minimizer to taxon mappingsopts.k2d: Contains information about the options used to build the databasetaxo.k2d: Contains taxonomy information used to build the database
-
conda install -c conda-forge -c bioconda -c defaults kraken2=2.1.3 -y
https://stackoverflow.com/questions/72114263/conda-install-package-zlib-conflicts-for-zlibversion-1-2-11-1-3-0a0
包冲突的解决办法