基于qiime2的扩增子数据分析

anneng

NIHMS782534-supplement-1.pdf

为了排除测序误差 OTU采用聚类的方式(97%相似度) 但是也会把真正的突变给排除掉
DADA2 R package implements the full amplicon workflow: filtering, dereplication, chimera identification, and merging paired-end reads.
DADA2 本身是个流程做了很多事情其中有一个就是把R1、R2做了合并。

anneng

https://edu.omicslogic.com/blog/16s-rna-amplicon-data-analysis-dada2-on-t-bioinfoserver?utm_campaign=T-Bio Info Server&utm_content=212683594&utm_medium=social&utm_source=linkedin&hss_channel=lcp-27253342

anneng

python -m pdb /home/jynlix/miniconda3/envs/qiime2-2022.2/bin/qiime diversity alpha-group-significance --i-alpha-diversity ace.qza --m-metadata-file metadata2.tsv --o-visualization alpha.ace.qzv --verbose

qiime2代码调试
1.要使用全路径
2.要加上--verbose 否则pdb的打印也会被重定向
3.然后可以使用“文件名:行号”打断点
b /home/jynlix/miniconda3/envs/qiime2-2022.2/lib/python3.8/site-packages/q2_diversity/_alpha/_visualizer.py:35

anneng

https://hackmd.io/@MAE-MBL/HylpoaOF5 qiime2的一个帖子讲的比较好

anneng

https://www.youtube.com/watch?v=g5BdGP4V5YA
关于rarefy的解释

anneng

https://forum.qiime2.org/t/whats-the-difference-between-and-g-in-greengene-database/17615

S__ 和__的区别

anneng

https://bioinformaticsworkbook.org/dataAnalysis/Metagenomics/Qiime2.html#gsc.tab=0

anneng

https://www.biorxiv.org/content/10.1101/2021.09.15.460495v2.full.pdf
Tourmaline: a containerized workflow for rapid and
iterable amplicon sequence analysis using QIIME 2
and Snakemake
使用snakemake对qiime2做了自动化

anneng

https://colab.research.google.com/github/Gibbons-Lab/isb_course_2020/blob/master/16S.ipynb#scrollTo=h3NALJ7u6mBP

使用Colab来运行Qiime2

anneng

对于__的问题：
qiime的图上会有__;__这种注释

经过查询：

数据里面是
k__Bacteria; p__Proteobacteria; c__Betaproteobacteria; o__Burkholderiales 这种级别不够的注释
对于级别不够的情况 qiime view 会用__补齐

但是注意，s__ p__这种情况数据也是有的如果需要过滤可以用
qiime taxa filter-table --p-exclude "s__"过滤

anneng

https://www.drive5.com/usearch/manual/qiime_classic.html
OTU 表中的数字代表reads数

anneng

DADA2的限制

DADA2对于单体序列无法识别

anneng

https://github.com/benjjneb/dada2/issues/1095
dereplication (derepFastq) required?
dada2在处理的时候可以去重只是为了降低内存消耗？在最后统计丰度的时候会把重复再计算回来？

anneng

dyn.load("./src/dada2.so")
Error in dyn.load("./src/dada2.so") :
unable to load shared object '/home/jynlix/Downloads/src/dada2/dada2/./src/dada2.so':
/home/jynlix/Downloads/src/dada2/dada2/./src/dada2.so: undefined symbol: _ZTIN3tbb4taskE

使用gdb 调试dada2时报错 dada2依赖 Rcpp 做多线程 Rcpp 依赖 tbb 需要提前把这个包加载

dyn.load("/home/jynlix/R/x86_64-pc-linux-gnu-library/4.1/RcppParallel/lib/libtbb.so.2", local = FALSE)

anneng

https://btep.ccr.cancer.gov/docs/qiime2/index.html
Microbiome Analysis with QIIME2 教程

anneng

dada2的执行过程:
filterAndTrim 过滤，截取
derepFastq (可选步骤 dada内部会判断如果没有经过去重会自己调用这个函数)
learnErrors 这个函数也会调用dada 以 self-consist mode 模式运行
dada 核心步骤但是 self-consist mode = FALSE

anneng

https://forum.qiime2.org/t/difference-between-sub-sampling-and-rarefing/18219

sub-sampling and rarefing的对比:

sub-sampling可以从sample或者feature的角度对数据进行过滤得到的是整个数据的子集。
rarefy是对所有feature的结果进行归一化。

anneng

假如data2的代码保存在 /root/data2
cd /root
R CMD build dada2
会生成dada2.so

anneng

https://hackmd.io/@MAE-MBL/HylpoaOF5#Part-II-In-depth-analysis

这个文章写的不错

anneng

https://www.jandonline.org/article/S2212-2672(20)30438-X/pdf
Associations between Diet, the Gut Microbiome,
and Short-Chain Fatty Acid Production among
Older Caribbean Latino Adults
饮食和微生物多样性的研究主要用了关联性分析