植物GWAS数据分析

mengpf

文献《Population genomics identifies genetic signatures of carrot domestication and improvement and uncovers the origin of high-carotenoid orange carrots》

译名：群体基因组学鉴定了胡萝卜驯化和改良的遗传特征，并揭示了高类胡萝卜素橙色胡萝卜的起源

链接： https://www.nature.com/articles/s41477-023-01526-6#Sec11

第二篇：燕麦（Genome resequencing reveals independent domestication and breeding improvement of naked oat）

链接：https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giad061/7227512#411622721

GWAS数据分析

核心步骤

质控

清理原始数据，确保分析的准确性。

基因组比对 (使用 BWA 或 Bowtie)

将读段与参考基因组比对。

BAM文件处理

使用Samtools或Picard Tools进行排序、标记重复读段、重建索引。

变异检测

使用如GATK的工具从比对结果中识别SNP和INDEL，产生VCF文件。

变异的质量控制:

包括去除低质量变异位点、过滤掉MAF（小等位基因频率，Minor Allele Frequency）过低或不符合Hardy-Weinberg Equilibrium的位点等。以确保只分析那些可靠和生物学上有意义的变异。

注：文中使用的是BCFtools

基因型格式转换

将VCF格式的变异数据转换为GWAS分析所需的格式，如PLINK格式。

表型数据整合

收集和整理与基因型数据对应的表型数据。
文中用的表型数据https://github.com/dsenalik/Carrot_Genome_DH1_v3/blob/main/phenotype/GWA.Phenotype.csv

关联分析

使用如PLINK、FarmCPU（Fixed and random model Circulating Probability Unification）、GAPIT（Genome Association and Prediction Integrated Tool）的工具对基因型和表型数据进行分析，识别每个SNP与表型特征之间的关联强度。

这是GWAS的核心，旨在找出哪些遗传变异与特定的表型特征相关联。

注：文中用的GAPIT

结果校正和解释

对关联分析结果进行多重测试校正，如Bonferroni校正，以防止假阳性结果，列出显著关联的SNP。

可选步骤

群体结构和亲缘关系分析

使用如STRUCTURE、ADMIXTURE的工具估计样本间的群体结构和亲缘关系。以避免群体结构导致的偏差影响分析结果。

注：文中用的ADMIXTURE

遗传变异性分析

使用如Pixy的工具计算种群内的核苷酸多样性（π）和基因组分化指数（Fst）。这有助于理解种群的遗传背景和多样性。

估计有效种群大小历史和分化时间

使用SMC++等工具估计历史上的种群大小和分化时间，增加对研究种群历史和演化的理解。

识别频率增加超过随机概率的变异

使用XP-CLR等工具识别可能受到自然选择影响的遗传区域。

mengpf

此回复已被删除！

mengpf

@mengpf
第三篇参考文献：紫花苜蓿。这篇文献是很典型的群体研究思路，测序后得到变异位点，基于这些位点进行全基因组关联分析和遗传进化分析，得到候选基因，挑选感兴趣的基因，对其进行单倍型分析和表达分析
jipb.13172.pdf

总体思路：
重测序获得变异数据

种群结构及连锁不平衡（系统发育树，structure，LD）

遗传多样性及群体分化选择（π ，Tajima’s D，Fst，XP-CLR）

与重要性状相关位点的鉴定（GWAS）

具体基因功能分析及验证（单倍型分析，相关性分析，表达分析）

mengpf

@mengpf 第4篇参考文献：栽培桃（Prunus persica (L.) Batsch）
链接：https://www.nature.com/articles/s41467-021-23879-2

这篇文献是很典型的群体研究思路，测序后得到变异位点，基于这些位点进行全基因组关联分析和遗传进化分析，得到候选基因，挑选感兴趣的基因，对其进行单倍型分析和实验验证。

整体思路：
高质量桃基因组组装

种群结构分析

群体分化选择

全基因组关联分析鉴定重要性状的相关位点

具体基因功能分析及实验验证

mengpf

@mengpf
连锁不平衡分析（LD）

指在某一群体中，不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象。LD在染色体上的分布一般用LD衰减图来描述，可以观测LD随遗传或物理距离的衰减速率。

一般来说，在连锁不平衡分析中，驯化种由于受到了正选择的作用，LD值就会偏大，这是因为在一段DNA序列中位点与位点之间存在着连锁的关系。不同位点间的连锁构成了“单倍体型”，随着重组的积累，特定的单倍体型会被削弱而逐渐消失。由于重组率与连锁距离有关，所以连锁不平衡范围会逐渐缩短。对于新产生的一个单倍体型，由于重组来不及破坏位点之间的连锁，所以它们之间连锁不平衡的距离往往比较远。在中性条件下，如果某个单倍体型是较新产生的，那么它的频率往往较低，而频率较高的单倍体型，需要经历很长一段时间才可能因为受到随机漂变的影响达到较高的频率。如果群体经历了正向选择，那么与有利位点连锁的周围位点会由于搭载效应而导致频率很快提升，所以包含有利位点的单倍体型一方面有着较高的频率，另一方面由于经历的时间不长，因此也有这较长的LD影响范围。这种特征为检测是否发生了正向选择提供了一个有效的突破点。

mengpf

@mengpf

GWAS相关知识点
https://mp.weixin.qq.com/s/fthC5rERUF8iNBE_zQuIRw

mengpf

比较经典的文献
https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzIyNzIyNTczNA==&action=getalbum&album_id=1538356061521444865&scene=173&subscene=&sessionid=undefined&enterid=0&from_msgid=2247523779&from_itemidx=3&count=3&nolastread=1#wechat_redirect