病毒数据分析相关文献
-
VirusDetect: An automated pipeline for efficient virus discovery using deep sequencing of small RNAs
zheng2017 VirusDetect An automated pipeline for efficient virus discovery using deep sequencing of small RNAs.pdf

这个流程包括有参组装、de novo组装、去宿主,使用的是blastn 来扫描一个病毒数据库 可以用来进行新病毒的发现或者分析病毒的进化官网: http://bioinfo.bti.cornell.edu/tool/VirusDetect/
https://github.com/kentnf/VirusDetect
考虑到这个软件是perl开发的 我们最好不用 直接用里面的软件自己封装成cwl传统的方法无法识别新病毒或病毒变异
enzyme-linked immunosorbent assay (ELISA), polymerase chain reaction (PCR), nucleic acid hybridization or microarray are useful but they require prior knowledge or sequence information of the potential pathogens, thus they are not highly efficient in detecting novel viruses or virus variants整体流程图如下:

1.使用bwa和病毒参考数据库进行比对 比对上的序列和参考序列进行有参组装 得到病毒的一致性序列 这个分支主要用于发现已知病毒
2.使用bwa和宿主进行比对 去宿主 (可选步骤) 使用没有map上的序列进行de novo 组装(Velvet ) ‘hash_length’ (the length of k-mer) ‘cov_cutoff’ (the coverage cutoff) 参数会严重影响组装质量 因此这个地方尝试了多次 最终选择了contig比较长的参数组合 这些contig又和宿主进行了比对 抛弃比对上的contig (有个宿主基因组会整合病毒序列 这种序列活性不高 可以删除)
3.整合有参和无参得到的contig 删除重复的contig
4.使用blastn、blastx注释病毒contig 生成sam文件