FASTA/Q序列操作神器:seqkit

mengpf

0. 简介

seqkit：序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能

1. 安装

conda install -c bioconda seqkit

2. 功能

amplicon        通过引物检索扩增子(或其周围的特定区域)
bam             检查和在线绘制BAM记录文件的直方图
common          通过id/名称/序列查找多个文件的公共序列
concat          连接多个文件中具有相同ID的序列
convert         转换FASTQ质量编码格式：支持格式包括：桑格，Solexa和Illumina
duplicate       重复序列N次
faidx           创建FASTA索引文件并提取子序列
fish            使用局部比对在较大的序列中寻找短序列
fq2fa           转换FASTQ到FASTA
fx2tab          将FASTA/Q转换为表格格式(包含长度/GC含量/GC偏好)
genautocomplete 生成shell自动完成脚本
grep            通过ID/name/sequence/sequence motif搜索序列，允许错配
head            打印第一条序列
help            打印帮助信息
locate          定位序列，或者motifs，允许错配
mutate          编辑序列(点突变、插入、删除)
pair            匹配双端序列文件
range           打印一个范围内的序列
rename          重命名重复序列ID
replace         使用正则表达式修改名称或者序列
restart         重置环状基因组的起始位置
rmdup           通过id/名称/序列删除重复的序列
sample          按数量或比例对序列进行抽样
sana            清理损坏的单行fastq文件
scat            real time recursive concatenation and streaming of fastx files
seq             转换序列(反向，补充，提取ID…)
shuffle         随机序列
sliding         序列滑窗提取，支持环形基因组
sort            按id/名称/序列/长度排序序列
split           按id/seq区域/大小/部件将序列拆分为文件(主要用于FASTA)
split2          按序列数量/文件数将序列拆分为多个文件(FASTA, PE/SE FASTQ)
stats           FASTA/Q文件的简单统计
subseq          通过region/gtf/bed得到子序列，包括侧翼序列
tab2fx          转换表格格式为FASTA/Q格式
translate       翻译DNA/RNA到蛋白质序列(支持歧义碱基)
version         打印版本信息并检查是否更新
watch           序列特征的监测和在线直方图

参数

Flags:
      --alphabet-guess-seq-length int   seqkit根据第一个FASTA记录猜测序列类型的序列前缀的长度(0表示整个序列)(默认10000)
  -h, --help                            显示帮助
      --id-ncbi                         FASTA头是ncbi风格的，例如>gi|110645304|ref|NC_002516.2 
      --id-regexp string                用于解析ID的正则表达式(default "^(\\S+)\\s?")，匹配空格前的部分为序列名
      --infile-list string              输入文件列表中的文件 (one file per line), if given, they are appended to files from cli arguments
  -w, --line-width int                  输出FASTA格式时的行宽 (0 for no wrap) (default 60)
  -o, --out-file string                 输出 ("-" for stdout, suffix .gz for gzipped out) (default "-") -代表标准输出，加.gz可输出压缩文件
      --quiet                           保持安静，不要显示额外的信息
  -t, --seq-type string                 序列类型 (dna|rna|protein|unlimit|auto) (auto, 按第一个序列自动检测) (default "auto")
  -j, --threads int                     CPU数量 (默认单核为1，多核为2) (default 2)

参考

https://bioinf.shenwei.me/seqkit/
https://mp.weixin.qq.com/s/OJsxFR33ej0ACozNbF_dNA