简化基因组流程开发笔记

Reply to 简化基因组流程开发笔记 on Thu, 28 Jan 2021 08:43:17 GMT

ice-melt — Thu, 28 Jan 2021 08:43:17 GMT

process_radtags 双端处理格式


    // Parse a file name that looks like: lane6_NoIndex_L006_R1_003.fastq
    // but exclude the paired-end files:  lane6_NoIndex_L006_R2_003.fastq
    //
    // Another example could be:          GfddRAD1_001_ATCACG_L008_R1_001.fastq.gz
    // and excluding the paired-end file: GfddRAD1_001_ATCACG_L008_R2_001.fastq.gz

Reply to 简化基因组流程开发笔记 on Fri, 22 Jan 2021 02:06:08 GMT

ice-melt — Fri, 22 Jan 2021 02:06:08 GMT

@ice-melt 在简化基因组流程开发笔记中说：

参考基因组创建索引

烟草的参考基因组下载链接：
https://www.ncbi.nlm.nih.gov/assembly/GCA_000715135.1
三刺鱼参考基因组：
http://asia.ensembl.org/Gasterosteus_aculeatus/Info/Index
wget -q ftp://ftp.ensembl.org/pub/release-91/fasta/gasterosteus_aculeatus/dna/Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa.gz

gzip -d Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa.gz
创建索引

stacks不直接参与比对，而是处理不同比对软件得到的BAM文件
这里建立bwa的索引
genome_fa=genome/Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa

bwa index -p index/bwa/gac $genome_fa &> index/bwa/bwa_index.oe

# 结果如下
|-- genome
|   |-- Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa
|-- index
    |-- bwa
        |-- bwa_index.oe
        |-- gac.amb
        |-- gac.ann
        |-- gac.bwt
        |-- gac.pac
        |-- gac.sa

生成 bam/sam 文件

# sam 文件
bwa mem -M ../genome/index/bwa/gcf T5_R1.fq.gz T5_R2.fq.gz > T5_R2.sam &

# bam 文件
bwa mem -M ../genome/index/bwa/gcf T5_R1.fq.gz T5_R2.fq.gz |samtools view -b > T5_R2.bam &

如果创建参考基因组索引没有指定索引文件夹， bwa mem 不需要指定-M参数
samtools 可以把bam转成sam格式
可以指定 -t 增加线程数
比对的结果可以查看一下质量
```
samtools flagstat T5_R2.bam 
```

Reply to 简化基因组流程开发笔记 on Wed, 20 Jan 2021 10:51:15 GMT

ice-melt — Wed, 20 Jan 2021 10:51:15 GMT

@ice-melt

这一步需要留意自己的单端测序，还是双端测序，barcode是在read中，还是在FASTQ的header中，是否还需要去接头序列，是否是双酶切建库等。

另外这一步比较耗时，尽量脱机运行或者提交到计算节点中，不然突然断网导致运行终止就更浪费时间了。
将运行结果记录到日志文件中，方便后期检查报错。

process_radtags -p $raw_dir -b $barcode_file \
    -o $processed_data/ -e sbfI --inline_null \
    -c -q -r &> $processed_data/process_radtags.lane1.oe&

Reply to 简化基因组流程开发笔记 on Wed, 20 Jan 2021 10:46:18 GMT

ice-melt — Wed, 20 Jan 2021 10:46:18 GMT

参考基因组创建索引

烟草的参考基因组下载链接：
https://www.ncbi.nlm.nih.gov/assembly/GCA_000715135.1
三刺鱼参考基因组：
http://asia.ensembl.org/Gasterosteus_aculeatus/Info/Index

wget -q ftp://ftp.ensembl.org/pub/release-91/fasta/gasterosteus_aculeatus/dna/Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa.gz

gzip -d Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa.gz

创建索引

stacks不直接参与比对，而是处理不同比对软件得到的BAM文件
这里建立bwa的索引

genome_fa=genome/Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa

bwa index -p index/bwa/gac $genome_fa &> index/bwa/bwa_index.oe

# 结果如下
|-- genome
|   |-- Gasterosteus_aculeatus.BROADS1.dna.toplevel.fa
|-- index
    |-- bwa
        |-- bwa_index.oe
        |-- gac.amb
        |-- gac.ann
        |-- gac.bwt
        |-- gac.pac
        |-- gac.sa