暗能星系

    • 登录
    • 搜索

    FASTA/Q序列操作神器:seqkit

    小技巧
    1
    1
    7
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • M
      mengpf 最后由 编辑

      0. 简介

      seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能

      1. 安装

      conda install -c bioconda seqkit
      

      2. 功能

      amplicon        通过引物检索扩增子(或其周围的特定区域)
      bam             检查和在线绘制BAM记录文件的直方图
      common          通过id/名称/序列查找多个文件的公共序列
      concat          连接多个文件中具有相同ID的序列
      convert         转换FASTQ质量编码格式:支持格式包括:桑格,Solexa和Illumina
      duplicate       重复序列N次
      faidx           创建FASTA索引文件并提取子序列
      fish            使用局部比对在较大的序列中寻找短序列
      fq2fa           转换FASTQ到FASTA
      fx2tab          将FASTA/Q转换为表格格式(包含长度/GC含量/GC偏好)
      genautocomplete 生成shell自动完成脚本
      grep            通过ID/name/sequence/sequence motif搜索序列,允许错配
      head            打印第一条序列
      help            打印帮助信息
      locate          定位序列,或者motifs,允许错配
      mutate          编辑序列(点突变、插入、删除)
      pair            匹配双端序列文件
      range           打印一个范围内的序列
      rename          重命名重复序列ID
      replace         使用正则表达式修改名称或者序列
      restart         重置环状基因组的起始位置
      rmdup           通过id/名称/序列删除重复的序列
      sample          按数量或比例对序列进行抽样
      sana            清理损坏的单行fastq文件
      scat            real time recursive concatenation and streaming of fastx files
      seq             转换序列(反向,补充,提取ID…)
      shuffle         随机序列
      sliding         序列滑窗提取,支持环形基因组
      sort            按id/名称/序列/长度排序序列
      split           按id/seq区域/大小/部件将序列拆分为文件(主要用于FASTA)
      split2          按序列数量/文件数将序列拆分为多个文件(FASTA, PE/SE FASTQ)
      stats           FASTA/Q文件的简单统计
      subseq          通过region/gtf/bed得到子序列,包括侧翼序列
      tab2fx          转换表格格式为FASTA/Q格式
      translate       翻译DNA/RNA到蛋白质序列(支持歧义碱基)
      version         打印版本信息并检查是否更新
      watch           序列特征的监测和在线直方图
      
      
      参数
      Flags:
            --alphabet-guess-seq-length int   seqkit根据第一个FASTA记录猜测序列类型的序列前缀的长度(0表示整个序列)(默认10000)
        -h, --help                            显示帮助
            --id-ncbi                         FASTA头是ncbi风格的,例如>gi|110645304|ref|NC_002516.2 
            --id-regexp string                用于解析ID的正则表达式(default "^(\\S+)\\s?"),匹配空格前的部分为序列名
            --infile-list string              输入文件列表中的文件 (one file per line), if given, they are appended to files from cli arguments
        -w, --line-width int                  输出FASTA格式时的行宽 (0 for no wrap) (default 60)
        -o, --out-file string                 输出 ("-" for stdout, suffix .gz for gzipped out) (default "-") -代表标准输出,加.gz可输出压缩文件
            --quiet                           保持安静,不要显示额外的信息
        -t, --seq-type string                 序列类型 (dna|rna|protein|unlimit|auto) (auto, 按第一个序列自动检测) (default "auto")
        -j, --threads int                     CPU数量 (默认单核为1,多核为2) (default 2)
      

      参考

      https://bioinf.shenwei.me/seqkit/
      https://mp.weixin.qq.com/s/OJsxFR33ej0ACozNbF_dNA

      1 条回复 最后回复 回复 引用 0
      • First post
        Last post
      Powered by 暗能星系