SNP指纹数据库的构建
-
SNP指纹数据库的构建
流程
- 材料准备
- S1: 113个已鉴定和注册的雪茄烟品种(从中国主要育种单位收集)
- S2: 核心SNP标记验证,43个已鉴定和注册的雪茄烟种质(从中国主要育种单位收集)
- S3: DNA指纹分析,216个雪茄烟种质
- 制备文库
- 每个种质在苗期随机选择7株健壮植株幼叶,0.5g 置于 2ml 离心管中
- 干冰冷冻,-80°保存,待用
- 研磨,提取DNA (
RaPure Plant DNA Kit) - 测定 DNA 的质量和浓度 (
NanoDrop2000 UV spectrophotometer) - 制备浓度为 30 ng/μl 的工作溶液
- 96 孔板中用
EcoRI和NIaIII进行双消化 - 消化的 DNA 样品与每孔 25 pmol 的A1和A2接头混合,将接头添加到消化的 DNA 片段的两个 DNA 末端
- 合并文库,在 1% 琼脂糖凝胶上进行大小选择(400-600bp)
- 使用 PCR 纯化试剂盒进行柱纯化(column-purified)
- 使用聚合脢 (Phusion DNA polymerase)扩增12轮
- 在第二次柱纯化后,使用
DNA1000芯片在Bioanalyzer 2100上估计平均片段大小 - 使用
PicoGreen进行文库定量。 - 合并后的文库浓度调整到10 nmol/μl
- 使用
Novaseq6000测序仪器生成125碱基长度的双端序列
- SNP识别
- BWA: 将高质量Illumina双端序列比对到烟草的参考基因组
- 参考基因组构建索引,
bwa index,重要参数(-a) - 比对:
bwa mem,重要参数(-M,)
- 参考基因组构建索引,
- GATK: 多样本(与同一参考基因组比对的结果文件)变异检测
- Unified Genotyper模块(统一基因型,目前应该已经过时了)
- Variant Filtration模块,过滤检测到的变异
- 参数:
-Window 4, -filter "QD <4.0 || FS> 60.0 || MQ <40.0," -G_filter "GQ <20."
- 参数:
- ANNOVAR: 高质量SNP检测结果进行注释
- BWA: 将高质量Illumina双端序列比对到烟草的参考基因组
- SNP过滤标准
- 变异位点均匀的分布在24个烟草染色体上
- 没有基因型数据缺失
- 位点未测样本数量<20 且 MAF≥0.34;(MAF:次等位基因频率)
- PIC>0.35;(PIC:多态信息量)
- Hardy-Weinberg平衡(HWE)检验的p值≥0.01
- 多态位点前后 100bp 处没有其他突变
- KASP引物开发
- 对于筛选中保留的每个SNP位点,将SNP前后的序列修剪至100bp,
- 通过
LGC Genomics LLC开发和设计KASP引物 - 对每一个SNP位点,设计2个等位基因特异性引物和一个通用引物
- 引物设计参数:
- GC含量<60%, 融化温度[55,62]°C;(
DNAstar v7.0) - PCR product size ≤120bp
- 所有的引物手动选择(因为在SNP位点上下游只有两种特异性等位基因引物可选),使用
Invitrogen Trading合成- FAM tail: 5′-GAAGGTGACCAAGTTCATGCT-3′
- VIC tail: 5′-GAAGGTCGGAGTCAACGGATT-3′
- 制备引物混合物(参考
Kbioscience推荐)- 46 μl ddH2O
- 30 μl 通用引物 (100 μM)
- FAM 和 VIC 引物各 12 μl (100 μM)
- 384 孔板中的总扩增反应体积为 5 μl
- 包括2.43 μl的 V4 2 × KASP Master混合物、0.07 μl的KASP 引物混合物和 2.5 μl 模板(30 ng 基因组 DNA)组成
- GC含量<60%, 融化温度[55,62]°C;(
- PCR扩增
- hot start at 94°C for 15 min
- 10 touchdown cycles (94°C for 20 s; touchdown starting at 61°C, −0.6°C per cycle, 60 s)
- 30 cycles of amplification(94°C for 20 s and 55°C for 60 s)
BMG POLARstar Omega扫描仪进行荧光检测反应KlusterCaller 3.4.1软件进行数据分析
- 数据分析
- 利用每个个体的SNP计算群体间的遗传距离(p距离)
- 公式:
$D_{ij}=\frac{1}{L}\sum{l=1}{L}d_{ij}$ L: 高质量SNP区域的长度- eg: when l=1 and allele is A/C ,(d_{ij}|AA,AA)=0,(d_{ij}|AA,AC)=0.5,(d_{ij}|AA,CC)=1
- 距离矩阵的计算使用
TreeBest软件
- 公式:
- 依据上面得到的距离矩阵
- 构建系统发育树(使用N近邻方法)
- 计算特征值和特征向量,使用
GCTA软件 - 绘制PCA分布图,使用
R
- 依据以上分析获得的SNP信息,进行群体结构分析(使用
PLINK软件) - 解释群体遗传结构(使用
frappe软件)
- 利用每个个体的SNP计算群体间的遗传距离(p距离)
- 选SNP
- 使用96个雪茄烟草品种用于测试新开发的KASP引物
- 选择基因分型结果良好的作为候选标记
- 以43个品种作为候选验证组,对选定的KASP引物进行验证
- 选择结果较好的引物作为核心引物,其余的作为候选核心标记
- 使用这两种SNP引物从雪茄烟草种质中获取基因型数据
- 生成二维码
Caoliaoerweima工具生成二维条码(216个雪茄品种)- 一个二维条码对应一种种质的基因型
结果
- SNP 识别
-
S4: 质控过滤后的数据统计
Raw base(bp) 2179242828
Clean base(bp) 2112705638
Effective rate(%) 96.95
Q20(%) 96.48
Q30(%) 90.27
GC(%) 39.90
clean reads 15200889
Mapped reads 15122159
Mapping Ratio(%) 99.48 -
GATK: 流程处理结果
{CT:160832(27.68%),AG:160270(27.59%),GT:101238,AC:100732,AT:41404,CG:16466}=580942 个高质量的SNP
transitions: CT+AG=321102
transversions: GT+AC+AT+CG=259840
transitions/transversions=1.24{
"intergenic": 92.20% ,基因间区域
"introns": 4.10% ,内含子
"exons": 1.50% ,外显子
"in the 1-kb region upstream of the transcriptional start site": 1.05% ,
"in the 1-kb region downstream of the transcription termination site": 1.03% ,
"in the 1-kb region upstream of one gene": 0.05% ,
"in the 1-kb region downstream of one gene": 0.05% ,
"5′ UTRs": 0.03% ,
"3′ UTRs": 0.02% ,
"in the splice junctions": 0.02% ,
}Annotations of the SNPs in the exons.
(5807)Non-synonymous SNV: a single-nucleotide change that causes an amino acid change;
(2658)Synonymous SNV: a single-nucleotide change that does not cause an amino acid change;
( 606)Stop gain: the mutation causes early termination of translation;
( 26)Stop loss: the variation causes the loss of the terminator codon
-
- 群体结构分析
- PCA结果结合种质地理信息得出:这两者无显著相关性
- 使用
Plink和frappe程序来分析 113 种雪茄烟草的种群结构- 计算交叉验证错误率,取最低的簇数为最佳
- K=4
- 无根邻接系统发育树
treebest软件,neighbor-joining方法- 四个进化枝,每个进化枝包含来自不同地理区域的雪茄烟草种质,同一地理区域的雪茄烟草种质也分布在三个进化枝中
- B101(WU MING雪茄),B001-5(巴西雪茄)单独出枝
- KASP引物设计和SNP位点选择
- 过滤 位点的插入缺失和删除率 >20% or MAF <5%, 剩 108267
- 过滤 PIC<0.35, 剩 47268
- 过滤 HWE test p value <0.01, 剩 8368
- 过滤 Plink 1.9通过indep pairwese 50 10 0.2去除高LD值配对基因座中的一个, 剩 2982
- 过滤 去除SNP前后100bp的其他突变位点, 剩 737 (表现出良好的多态性和品种鉴别能力)
- 从相应的scaffold上提取这些位点的侧翼序列,并在染色体水平上与参考基因组匹配,只保留染色体上的位点, 剩 715
- MAF∈0.346,0.500,PIC∈0.350,0.375,观测杂合率∈0,0.64,遗传多样性∈0.45,0.50
- 根据前一步的数据进一步筛选, 要求 1)没有基因型缺失; 2)主要是纯合变异位点 3)在尽可能多的个体中检测到, 剩 163
- 163个位点设计KASP引物,成功得到133个KASP标记
- 使用KASP系统对GBS测序的113个雪茄种质进行基因分型
The 133 KASP primer sets were typed and verified, and 96 cigar accessions from the 113 that were used for GBS were genotyped using the KASP system. - 基于分型结果,确定76个显示出高精度的 KASP 标记 ,
- 随后以43个候选标记作为候选验证群体筛选的候选标记,筛选出效果较好的标记作为核心标记; 筛选出47对核心KASP引物(S5),24对被指定为候选核心引物(S6)
- DNA指纹的构建
- 47-SNP 条码对 216 个雪茄品种的整体预测准确率为 100%,可以区分不同的材料
- 雪茄种质资源鉴定
- 使用 47 个核心 SNP 位点的基因分型结果,
NTSYS软件用于计算 216 个烟草种质的遗传距离矩阵(S7)。 - 雪茄烟草种质之间的遗传距离为[0,0.857]
- 遗传矩阵
- 最大值0.857 确定(B232|B144,B169,B179)
它们之间有41个多态性标记,表明它们的遗传距离最远(?) - 最小值0
这意味着每个组中的种质都被怀疑是同一品种
- 最大值0.857 确定(B232|B144,B169,B179)
- 使用 24 对候选核心引物对可疑品种进行重新基因分型并计算它们的遗传距离(S8)
- 仍有部分种质间的遗传距离是0
- 这些种质均在田间种植并进一步评估,结合田间表型性状,我们发现这些品种的各项指标数据差异很小,难以区分,因此确定各组中的品种为同一品种。
- 使用 47 个核心 SNP 位点的基因分型结果,
- 材料准备
-
In addition, the filtered high-quality SNPs were used to annotate the SNP detection results with ANNOVAR software.
文档中提到的突变注释,应该是指下面的方法:
ANNOVAR
https://annovar.openbioinformatics.org/en/latest/user-guide/filter/
Generic mutation annotations
目的是拿GATK Variant Filtration 过滤后的 去注释过滤以前的 估计能找出来哪些被过滤掉了关于Generic mutation annotations的另一个参考
https://www.genengnews.com/magazine/205/advertorial-profiling-breast-cancer-variants/