FASTA/Q序列操作神器:seqkit
-
0. 简介
seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能
1. 安装
conda install -c bioconda seqkit2. 功能
amplicon 通过引物检索扩增子(或其周围的特定区域) bam 检查和在线绘制BAM记录文件的直方图 common 通过id/名称/序列查找多个文件的公共序列 concat 连接多个文件中具有相同ID的序列 convert 转换FASTQ质量编码格式:支持格式包括:桑格,Solexa和Illumina duplicate 重复序列N次 faidx 创建FASTA索引文件并提取子序列 fish 使用局部比对在较大的序列中寻找短序列 fq2fa 转换FASTQ到FASTA fx2tab 将FASTA/Q转换为表格格式(包含长度/GC含量/GC偏好) genautocomplete 生成shell自动完成脚本 grep 通过ID/name/sequence/sequence motif搜索序列,允许错配 head 打印第一条序列 help 打印帮助信息 locate 定位序列,或者motifs,允许错配 mutate 编辑序列(点突变、插入、删除) pair 匹配双端序列文件 range 打印一个范围内的序列 rename 重命名重复序列ID replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) shuffle 随机序列 sliding 序列滑窗提取,支持环形基因组 sort 按id/名称/序列/长度排序序列 split 按id/seq区域/大小/部件将序列拆分为文件(主要用于FASTA) split2 按序列数量/文件数将序列拆分为多个文件(FASTA, PE/SE FASTQ) stats FASTA/Q文件的简单统计 subseq 通过region/gtf/bed得到子序列,包括侧翼序列 tab2fx 转换表格格式为FASTA/Q格式 translate 翻译DNA/RNA到蛋白质序列(支持歧义碱基) version 打印版本信息并检查是否更新 watch 序列特征的监测和在线直方图参数
Flags: --alphabet-guess-seq-length int seqkit根据第一个FASTA记录猜测序列类型的序列前缀的长度(0表示整个序列)(默认10000) -h, --help 显示帮助 --id-ncbi FASTA头是ncbi风格的,例如>gi|110645304|ref|NC_002516.2 --id-regexp string 用于解析ID的正则表达式(default "^(\\S+)\\s?"),匹配空格前的部分为序列名 --infile-list string 输入文件列表中的文件 (one file per line), if given, they are appended to files from cli arguments -w, --line-width int 输出FASTA格式时的行宽 (0 for no wrap) (default 60) -o, --out-file string 输出 ("-" for stdout, suffix .gz for gzipped out) (default "-") -代表标准输出,加.gz可输出压缩文件 --quiet 保持安静,不要显示额外的信息 -t, --seq-type string 序列类型 (dna|rna|protein|unlimit|auto) (auto, 按第一个序列自动检测) (default "auto") -j, --threads int CPU数量 (默认单核为1,多核为2) (default 2)参考
https://bioinf.shenwei.me/seqkit/
https://mp.weixin.qq.com/s/OJsxFR33ej0ACozNbF_dNA