暗能星系

    • 登录
    • 搜索

    karken2 构建nt库

    刘茜
    2
    2
    35
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • I
      ice-melt 最后由 编辑

      karken2 构建nt库

      karken2手册:https://github.com/DerrickWood/kraken2/wiki/Manual

      一、简述构建标准库

      kraken2-build --standard --db $DBNAME
      # $DBNAME 是一个本地路径
      

      --standard 指令构建标准库,将下载NCBI分类信息,以及细菌、古细菌和病毒的完整基因组,以及人类基因组和一组已知载体(UniVec_Core),下载完成后将自动进行构建;

      构建过程非常耗时,可以使用--threads xx 启动多核加速构建

      📒 注:下载过程可能由于各种原因中断,可以考虑使用其它下载工具下载,下载过程的连接和处理过程可以参考standard_installation.sh脚本,位于安装路径的libexec目录下

      二、构建自定义库(以nt库为例)

      1. 下载物种信息

      kraken2-build --download-taxonomy --db $DBNAME
      

      该命令将下载accession number和taxon的映射,以及taxonomic name和来自NCBI的树结构信息,
      这些文件将位于$DBNAME/taxonomy/目录下;

      如果需要修改分类,可以编辑该目录下的names.dmp和nodes.dmp文件,同时需要修改相应的*.accession2taxid文件

      📒 注:该步骤使用命令下载一般没有问题,如有问题可参考 download_taxonomy.sh 自行下载

      参考脚本下载物种信息文件:

      # 首先使用其它下载工具下载以下链接
      # step 1:
      # 核酸
      [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz
      [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_wgs.accession2taxid.gz
      # 蛋白
      [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
      # ******* 根据需要下载核酸或蛋白的accession2taxid文件 *******
      touch accmap.dlflag
      
      # step 2:
      # 下载 taxdump
      [ftp|rsync|https]://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
      touch taxdump.dlflag
      
      # step 3:
      ## 解压缩文件
      gunzip *accession2taxid.gz
      tar zxf taxdump.tar.gz
      touch taxdump.untarflag
      
      

      2. 下载一个或多个参考库

      kraken2-build --download-library $LIBRARY_NAME --db $DBNAME
      
      # LIBRARY_NAME  can be :
      [
      archaea(古细菌)|bacteria(细菌)|plasmid(质粒)|
      viral(病毒)|human(人类)|fungi(真菌)|
      plant(植物)|protozoa(原生动物)|nr(非冗余蛋白库)|
      nt(非冗余核酸库)|UniVec(**)|UniVec_Core(**)|
      ]
      # 可以使用该命令下载多个库
      

      📒 注:该命令下载nr(蛋白)库,必须使用--protein指令

      📒 注:该步骤可以使用自己的参考序列且支持多个fasta文件,但是必须指明序列的分类信息,可以通过在序列ID中添加kraken:taxid|XXX标记,例如,可以给一个众做周知的adapter序列添加分类ID 32630 ("synthetic construct"),如下:

      >sequence16|kraken:taxid|32630  Adapter sequence
      CAAGCAGAAGACGGCATACGAGATCTTCGAGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA
      

      📒 注:该步骤使用命令下载一般没有问题,如有问题可参考 download_genomic_library.sh 自行下载

      参考脚本自行下载nt库:

      mkdir -p $LIBRARY_DIR/nt
      cd $LIBRARY_DIR/nt
      rm -f nt.gz
      
      # 使用ascp下载nt库,速度快
      ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 400M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
      gunzip nt.gz
      mv nt library.fna
      
      # 设置必要的环境变量,运行kraken2的处理脚本
      export KRAKEN2_DIR=/home/bioinfo/miniconda2/envs/kraken2/libexec
      export PATH=${KRAKEN2_DIR}:$PATH
      scan_fasta_file.pl --lenient library.fna >> prelim_map.txt
      

      3. 构建数据库

      数据准备完成,即可开始构建

      kraken2-build --build --db $DBNAME --threads 48
      # 构建过程较慢,根据系统资源尽可能多的设置线程数
      

      构建完成后的结果文件:

      • hash.k2d: Contains the minimizer to taxon mappings
      • opts.k2d: Contains information about the options used to build the database
      • taxo.k2d: Contains taxonomy information used to build the database
      1 条回复 最后回复 回复 引用 0
      • A
        anneng 最后由 编辑

        conda install -c conda-forge -c bioconda -c defaults kraken2=2.1.3 -y
        https://stackoverflow.com/questions/72114263/conda-install-package-zlib-conflicts-for-zlibversion-1-2-11-1-3-0a0
        包冲突的解决办法

        1 条回复 最后回复 回复 引用 0
        • First post
          Last post
        Powered by 暗能星系