HBV分析
-
二代数据分析过程
对比分型
使用比对 直接将reads比对到参考基因组上 然后进行统计blast分型
使用blast直接和hdvdb进行对比查询(ncbi自己的分型工具对查询序列进行了分段 类似kmer 我们一般拿到的reads双端文件 感觉和这种分段很类似 可以直接查询 也不用组装了)ncbi宣称好处是可以找出“重组”过的病毒类型 即一个病毒由多个病毒拼接而成 这种情况很难和混合样本(一个样本有多个分型的感染)区分开

直接使用reads 来分型 可以参考这个文章
https://www.ncbi.nlm.nih.gov/labs/pmc/articles/PMC4382110/
进化树方式进行分型:
1.fastp :质控和预处理
2.去接头(可选)
3.过滤:碱基质量
4.比对:bowtie2、bwa-mem 和通用株X02763
5.排序、去重:Samtools
6.生成一致性序列:CliqueSNV
7.多序列比对:和hdvdb数据库进行多序列比对(blast方法不需要这个步骤 由于病毒的变化很多 很可能在多序列比对时无法有效对齐)
8.构建进化树:MEGA 7 maximum-likelihood方法 该步骤就可以得到每个样本的分型构建单倍型 Haplotype construction
1.比对:和该样本的对应分型参考序列进行比对
bowtie2's very-sensitive-local
2.去重:Sambamba
3.构建单倍型:CliqueSNVdiversity analysis
香农商Shannon entropy (Sn):
S = −pilnpi, where pi is the frequency of each haplotype in the viral quasispecies population
genetic diversity (D) :MEGA X v10.1.8 genetic distance of the haplotypes
病毒进化率 viral evolutionary rates:MEGA 7 HKY substitution model 、BEAST v2.6.3、Tracer统计分析
SPSS突变分析
Samtools mpileup: -
https://www.rivm.nl/mpf/typingtool/hev/introduction
一个在线的hev的分型工具 有参考报告 -
-
https://pubmed.ncbi.nlm.nih.gov/11230757/
Nomenclature for antiviral-resistant human hepatitis B virus mutations in the polymerase region
HBV耐药性突变的命名规则 rtL180M -
-
https://jbiomedsci.biomedcentral.com/articles/10.1186/s12929-018-0442-4
Applications of next-generation sequencing analysis for the detection of hepatocellular carcinoma-associated hepatitis B virus mutations
这篇文章分析了HBV突变和肝癌的相关性
1.对于组装 文章提到有参组装更好 相对de novo 组装而言 毕竟illumina的reads比较短2.文章里面提到了一个sample-specific 参考序列、同基因型的参考序列、其他不兼容参考序列对假阳性的影响。

这个文章很水 没有提到生信是怎么做的 -
-
-
四医大HBV分析记录
1.使用bbmerge合并R1 R2 下面脚本的意思是使用find找到样本名称 然后使用这个样本名称传递给parallel并发处理find ../all_data/*_L001_R1_001.fastq.gz | sed 's/_L001_R1_001.fastq.gz$//' | parallel 'bbmerge.sh in1=../all_data/{}_L001_R1_001.fastq.gz in2=../all_data/{}_L001_R2_001.fastq.gz out={}.fastq outu1={}.R1.umerged outu2={}.R2.unmerged'发现327个样本中 有几个样本 R1 和 R2 的数量不一致 针对这些样本 使用spades进行组装 取最长的序列进行第二步
因为涉及到组装 无法进行混合样品的分析 把这些样本当作单样本处理
将所有的fastq转成fasta(blast只识别fasta)parallel 'seqtk seq -a {}> {.}.fasta' ::: *.fastq2.使用blast 对样本中的序列进行分型 得到每个样本中各种分型的序列数量
构建blast数据库
从hbvdb下载的参考序列 有一个类别是RF 例如 https://www.ncbi.nlm.nih.gov/nucleotide/EU871985.1?report=genbank&log$=nuclalign&blast_rank=1&RID=Z8DW1MY8016 这个序列 NCBI没有标识类型 hbvdb将其注释为了BC重组型 我们当前先把这种RF的去掉makeblastdb -in all_hbvdb_Genomes.fas -dbtype nuclblastn -task blastn -max_target_seqs 1 -query ../0-merging-pe/100_S42.fasta -db ../hbvdb/all_hbvdb_Genomes.fas -num_threads 10 -out 100_S42.m8 -outfmt 6nohup bash -c "find ../0-merging-pe/*.fasta | sed 's/.fasta$//' | parallel --joblog ./logs -j40 blastn -task blastn -max_target_seqs 1 -query ../0-merging-pe/{}.fasta -db ../hbvdb/A-H/HBV_A_H.fas -out {/}.m8 -outfmt 6 " &3.比对
nohup bash -c "find ../all_data/*_L001_R1_001.fastq.gz | sed 's/_L001_R1_001.fastq.gz$//' | parallel 'bwa mem -M AB033556_hbc_type_C.fasta {}_L001_R1_001.fastq.gz {}_L001_R2_001.fastq.gz > {/}.sam' " &nohup parallel "samtools view -bF 4 {} > {/.}.bam" ::: ./sam/*.sam & parallel samtools sort {} -o {.}.sorted.bam ::: *.bam4.call
nohup parallel "lofreq indelqual {} --dindel -f ../3-mapping/AB033556_hbc_type_C.fasta -o {/.}.sorted.dindel.bam " ::: ../3-mapping/bam/*.sorted.bam & nohup parallel "lofreq call {} --call-indels -f ../3-mapping/AB033556_hbc_type_C.fasta -o {/.}.vcf " ::: *.bam &5.分析单倍型
find /ceph_disk2/siyida_327_sample/3-mapping/sam/ -name "*.sam" -exec basename \{} .sam \; | sed 's/.sam$//' |parallel 'java -jar clique-snv.jar -m snv-illumina -in /ceph_disk2/siyida_327_sample/3-mapping/sam/{}.sam' -
spades的组装
/home/bioinfo/miniconda2/envs/assembly/bin/spades.py -1 /ceph_disk3/hbv/HBV_illumina/106/106_S46_L001_R1_001.fastq -2 /ceph_disk3/hbv/HBV_illumina/106/106_S46_L001_R2_001.fastq -o /ceph_disk3/hbv/HBV_illumina/106/spades -
https://www.sciencedirect.com/science/article/pii/S1386653218300970
Frequency of hepatitis B surface antigen variants (HBsAg) in hepatitis B virus genotype B and C infected East- and Southeast Asian patients: Detection by the Elecsys
HBsAg II assay
-
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0172101
Ultra-deep sequencing reveals high prevalence and broad structural diversity of hepatitis B surface antigen mutations in a global population
https://github.com/spabinger/HBV_data_publication_2016_07
an MHR variant was defined as a nucleotide sequence change in the S gene region (encoding amino acids 99 to 170) with an allele frequency >5% (in both sequencing directions) and at least 3 variant reads present on the forward as well as on the reverse strand.

-
https://sci-hub.st/10.1159/000361076
Hepatitis B Virus Drug Resistance Tools:
One Sequence, Two Predictions
www.genafor.org/services.phpHIV-GRADE HBV
文章提到了一些工具 用于分型、耐药、免疫逃逸的分析

-
Genetic Diversity of Hepatitis B Virus
Strains Derived Worldwide: Genotypes,
Subgenotypes, and HBsAg Subtypeshttps://sci-hub.st/10.1159/000080872
对HBV进行进化树分析 里面也提到血清型和基因型之间的复杂的对应关系。
涉及的软件:
DNADIST and NEIGHBOR from the Phylip program package version 3.53PUZZLE
Bootstrap on 1,000 replicas was performed with SEQBOOT, DNADIST, NEIGHBOR, and CONSENSE from the Phylip package.
-
-
https://www.aimspress.com/article/doi/10.3934/microbiol.2020024?viewType=HTML
突变可能造成的影响 这个论文做了一个总结

-
https://www.nature.com/articles/s41598-019-43524-9
Illumina and Nanopore methods for whole genome sequencing of hepatitis B virus (HBV)

-
https://www.frontiersin.org/articles/10.3389/fmicb.2020.616023/full
Comprehensive Analysis of Clinically Significant Hepatitis B Virus Mutations in Relation to Genotype, Subgenotype and Geographic Region
使用公开数据分析HBV的突变
Table_1_Comprehensive Analysis of Clinically Significant Hepatitis B Virus Mutations in Relation to Genotype, Subgenotype and Geographic Region.XLSX这个表格的格式可以作为分析的模板
行是样本 列是突变的位置或者重要图标的代号 -
-


