多样性指标的简要介绍

ice-melt

多样性指标的简要介绍

这里对主要的多样性指标进行介绍说明，更多内容会在回帖中跟进

ice-melt

Bray-Curtis距离

简介

Bray-Curtis距离是以该统计指标的提出者J. Roger Bray和John T. Curtis的名字命名的,主要基于OTUs的计数统计比较两个群落微生物的组成差异。D值越小表示二者组成差异小。

公式

S_{A,i} 和 S_{B,i} 表示第i个OTU分别在A群落和B群落中的计数

举例说明
群落A和群落B的OTU统计如下表：

community	OTU1	OTU2	OTU3	OTU4	OTU5
A	10	8	4	1	1
B	7	3	8	4	0

min(S_(B,i)S_(B,i)) = 7+3+4+1+0 = 15

sum(S_(A,i)) = 10+8+4+1+1 = 24
sum(S_(A,i)) = 7+3+4+8+4+0 = 22

D = 1 - 2*15/(24+22) = 0.3478

ice-melt

jaccard index

简介

jaccard index（杰卡德指数）又称为jaccard similarity coefficient(杰卡德相似度系数)，用于比较有限样本集之间的相似性和差异性。在处理离散型（类别型）变量的相识度时非常有用。

jaccard相似度的缺点是只适用于二元数据的集合。元素的取值只能是0或者1，无法利用更丰富的信息。

公式

给定两个集合A,B， jaccard 系数定义为A与B交集的大小与并集大小的比值：

这个太好理解了就不举例说明了。。。

由相似度，可以转换成Jaccard距离：

Jaccard distance （A, B） = 1- Jaccard（A, B）

ice-melt

UniFrac 距离

简介

UniFrac 距离是2005年提出的关于beta diversity 的群落比较方法，主要是基于系统发生树比较，利用不同样品中OTU代表序列构建进化树，比较特定的进化谱系中是否有显著的微生物群落差异。与P-检验类似,应用它们的先决条件是一个包含所有待比群落里所有序列的系统发生树(有根树,各枝长已知),每个序列根据其来自的排落进行标注。若比较多个群落,则往往两两比较,而每一次的比较,都在原始的系统发生树的基础上,将其中不存在于这两个群落的叶节点去掉,形成一个只含这两个群落序列的子树。基于这样的子树,UniFrac这样定义两个群落之间的距离:对于系统发生树所有枝,考查其指向的叶节点是否只存于同一个群落,那些叶节点只存在于同一群落的枝的枝长和,占整个树的枝长和的比例,就定义为UniFrac距离。

UniFrac的概念非常容易理解,直观来讲, 就是计算了仅被一个群落占据的进化历史的相对大小,这个量越大,说明两个群落中独立的进化过程越多,也就说明这两个群落的差别越大。若两个群落完全相同,那么它们没有各自独立的进化过程,UniFrac值为0;若两个群落在进化树中完全分开,即它们是完全独立的两个进化过程,那么UniFrac值为1.

从UniFrac的定义中,可以看出它只考虑序列是否在群落中出现,而不考虑序列的丰度。若两个群落包含的物种完全相同,那么不管每个物种的丰度是否有差别或者差别的大小，UniFrac值为0。但在某些具体的情况下,研究者感兴趣的恰恰是群落中物种丰度的变化,例如研究人体肠道微生物分布在抗生素治疗下的变化情况,这时UniFrac就不能解决问题了。

公式

其中：

$b_i$ 是枝的长度
$A_i = 1$ 表示有枝i指向的叶节点在群落A中出现，否则 $A_i=0$ , B_i也按相似的方式定义

大概意思懂了，具体到公式还没有特别明白，暂时没有找到明晰的图解或示例
TODO ：公式示例

ice-melt

Weight UniFrac

简介

加权的UniFrac距离,与2007年提出。相较于UniFrac,其额外考虑了物种丰度的信息。

公式

其中

n 表示树中枝的数目
b_i 是枝 i 的长度
A_i 和 B_i 分别是枝i指向的来自群落A和群落B的序列的个数
A_T 和 B_T 分别表示群落A和群落B的序列的总数
n^{'} 表示两个群落中所有不同的序列的个数
d_j 是树中从根到序列j的距离
\alpha_j 和 \beta_j 表示序列j分别在群落A和群落B中出现的次数（丰度）
除n^{'}外，在计数时，都将重复出现的次数计入

ice-melt

样本间距离说明

样本间距离是指样本之间的相似程度，可以通过数学方法估算。如前所述，样本间越相似，距离数值越小。

计算微生物群体样本间距离的方法有多种（eg: Jaccard、Bray-Curtis、Unifrac等。）,这些算法主要分为两大类别：

OTU间是否关联
OTU是否加权

	基于独立OTU	基于系统发生数
加权	Bray-Curtis	Weighted Unifrac
非加权	Jaccard	Unweighted Unifrac

基于独立OTU vs 基于系统发生树

二代测序当中，我们对16s rDNA某个区域进行测序后，会根据序列的相似度定义OTU。这个时候，基于独立OTU的计算方式认为OTU之间不存在进化上的联系，每个OTU间的关系平等。

而基于系统发生树计算的方法，会根据16s的序列信息对OTU进行进化树分类，因此不同OTU之间的距离实际上有“远近”之分。

加权vs非加权

利用非加权的计算方法，主要考虑的是物种的有无，即如果两个群体的物种类型都一致，表示两个群体的β多样性最小。而加权方法，则同时考虑物种有无和物种丰度两个问题。

-	a物种	b物种
A群体	3	2
B群体	2	3

上表通过非加权方法计算，因为A群体与B群体的物种组成完全一致，都只由物种a和b组成，因此它们之间的β多样性为0。但通过加权方法计算，虽然A与B群体的组成一致，但物种a和b的数目却不同，因此两个群体的β多样性则并非一致（bray-curtis=1-2*(2+2)/(5+5)=0.2）。