<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[多样性指标的简要介绍]]></title><description><![CDATA[<h1>多样性指标的简要介绍</h1>
<p dir="auto">这里对主要的多样性指标进行介绍说明，更多内容会在回帖中跟进</p>
]]></description><link>http://an.forum.genostack.com/topic/16/多样性指标的简要介绍</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 12:31:39 GMT</lastBuildDate><atom:link href="http://an.forum.genostack.com/topic/16.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 23 Jul 2020 07:38:29 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 多样性指标的简要介绍 on Thu, 23 Jul 2020 09:56:06 GMT]]></title><description><![CDATA[<h1>样本间距离说明</h1>
<p dir="auto">样本间距离是指样本之间的相似程度，可以通过数学方法估算。如前所述，样本间越相似，距离数值越小。</p>
<p dir="auto">计算微生物群体样本间距离的方法有多种（eg: <code>Jaccard</code>、<code>Bray-Curtis</code>、<code>Unifrac</code>等。）,这些算法主要分为两大类别：</p>
<ol>
<li><code>OTU间是否关联</code></li>
<li><code>OTU是否加权</code></li>
</ol>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th></th>
<th>基于独立OTU</th>
<th>基于系统发生数</th>
</tr>
</thead>
<tbody>
<tr>
<td><strong>加权</strong></td>
<td>Bray-Curtis</td>
<td>Weighted Unifrac</td>
</tr>
<tr>
<td><strong>非加权</strong></td>
<td>Jaccard</td>
<td>Unweighted Unifrac</td>
</tr>
</tbody>
</table>
<h2>基于独立OTU vs 基于系统发生树</h2>
<p dir="auto">二代测序当中，我们对16s rDNA某个区域进行测序后，会根据序列的相似度定义OTU。这个时候，<code>基于独立OTU</code>的计算方式认为OTU之间不存在进化上的联系，每个OTU间的关系平等。</p>
<p dir="auto">而<code>基于系统发生树</code>计算的方法，会根据16s的序列信息对OTU进行进化树分类， 因此不同OTU之间的距离实际上有“远近”之分。</p>
<h2>加权vs非加权</h2>
<p dir="auto">利用<code>非加权</code>的计算方法，主要考虑的是物种的有无，即如果两个群体的物种类型都一致，表示两个群体的β多样性最小。而<code>加权</code>方法，则同时考虑物种有无和物种丰度两个问题。</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>-</th>
<th>a物种</th>
<th>b物种</th>
</tr>
</thead>
<tbody>
<tr>
<td>A群体</td>
<td>3</td>
<td>2</td>
</tr>
<tr>
<td>B群体</td>
<td>2</td>
<td>3</td>
</tr>
</tbody>
</table>
<p dir="auto">上表通过非加权方法计算，因为A群体与B群体的物种组成完全一致，都只由物种a和b组成，因此它们之间的β多样性为0。但通过加权方法计算，虽然A与B群体的组成一致，但物种a和b的数目却不同，因此两个群体的β多样性则并非一致（<code>bray-curtis=1-2*(2+2)/(5+5)=0.2</code>）。</p>
]]></description><link>http://an.forum.genostack.com/post/22</link><guid isPermaLink="true">http://an.forum.genostack.com/post/22</guid><dc:creator><![CDATA[ice-melt]]></dc:creator><pubDate>Thu, 23 Jul 2020 09:56:06 GMT</pubDate></item><item><title><![CDATA[Reply to 多样性指标的简要介绍 on Thu, 23 Jul 2020 09:23:22 GMT]]></title><description><![CDATA[<h1>Weight UniFrac</h1>
<h2>简介</h2>
<p dir="auto">加权的<code>UniFrac</code>距离,与2007年提出。相较于<code>UniFrac</code>,其额外考虑了物种丰度的信息。</p>
<h2>公式</h2>
<p dir="auto"><img src="/assets/uploads/files/1595495475024-codecogseqn.png" alt="CodeCogsEqn.png" class=" img-responsive img-markdown" /></p>
<p dir="auto">其中</p>
<ul>
<li><code>n</code> 表示树中枝的数目</li>
<li><code>b_i</code> 是枝 <code>i</code> 的长度</li>
<li><code>A_i</code> 和 <code>B_i</code> 分别是枝<code>i</code>指向的来自群落<code>A</code>和群落<code>B</code>的序列的个数</li>
<li><code>A_T</code> 和 <code>B_T</code> 分别表示群落<code>A</code>和群落<code>B</code>的序列的总数</li>
<li><code>n^{'}</code> 表示两个群落中所有不同的序列的个数</li>
<li><code>d_j</code> 是树中从根到序列j的距离</li>
<li><code>\alpha_j 和 \beta_j</code> 表示序列j分别在群落<code>A</code>和群落<code>B</code>中出现的次数（丰度）</li>
<li>除<code>n^{'}</code>外，在计数时，都将重复出现的次数计入</li>
</ul>
]]></description><link>http://an.forum.genostack.com/post/21</link><guid isPermaLink="true">http://an.forum.genostack.com/post/21</guid><dc:creator><![CDATA[ice-melt]]></dc:creator><pubDate>Thu, 23 Jul 2020 09:23:22 GMT</pubDate></item><item><title><![CDATA[Reply to 多样性指标的简要介绍 on Thu, 23 Jul 2020 08:59:07 GMT]]></title><description><![CDATA[<h1>UniFrac 距离</h1>
<h2>简介</h2>
<p dir="auto"><code>UniFrac</code> 距离是2005年提出的关于<code>beta diversity</code> 的群落比较方法，主要是基于系统发生树比较，利用不同样品中<code>OTU</code>代表序列构建进化树，比较特定的进化谱系中是否有显著的微生物群落差异。与P-检验类似,应用它们的先决条件是一个包含所有待比群落里所有序列的系统发生树(有根树,各枝长已知),每个序列根据其来自的排落进行标注。若比较多个群落,则往往两两比较,而每一次的比较,都在原始的 系统发生树的基础上,将其中不存在于这两个群落的叶节点去掉,形成一个只含这两个群落序列的子树。基于这样的子树,<code>UniFrac</code>这样定义两个群落之间的距离:对于系统发生树所有枝,考查其指向的叶节点是否只存于同一个群落,那些叶节点只存在于同一群落的枝的枝长和,占整个树的枝长和的比例,就定义为<code>UniFrac</code>距离。</p>
<p dir="auto"><code>UniFrac</code>的概念非常容易理解,直观来讲, 就是计算了仅被一个群落占据的进化历史的相对大小,这个量越大,说明两个群落中独立的进化过程越多,也就说明这两个群落的差别越大。若两个群落完全相同,那么它们没有各自独立的进化过程,<code>UniFrac</code>值为<code>0</code>;若两个群落在进化树中完全分开,即它们是完全独立的两个进化过程,那么<code>UniFrac</code>值为<code>1</code>.</p>
<p dir="auto">从<code>UniFrac</code>的定义中,可以看出它只考虑序列是否在群落中出现,而不考虑序列的丰度。若两个群落包含的物种完全相同,那么不管每个物种的丰度是否有差别或者差别的大小，<code>UniFrac</code>值为<code>0</code>。但在某些具体的情况下,研究者感兴趣的恰恰是群落中物种丰度的变化,例如研究人体肠道微生物分布在抗生素治疗下的变化情况,这时<code>UniFrac</code>就不能解决问题了。</p>
<h2>公式</h2>
<p dir="auto"><img src="/assets/uploads/files/1595494310640-codecogseqn.png" alt="CodeCogsEqn.png" class=" img-responsive img-markdown" /></p>
<p dir="auto">其中：</p>
<ul>
<li><code>$b_i$</code> 是枝的长度</li>
<li><code>$A_i = 1$</code> 表示有枝i指向的叶节点在群落A中出现，否则<code>$A_i=0$</code>, <code>B_i</code>也按相似的方式定义</li>
</ul>
<blockquote>
<p dir="auto">大概意思懂了，具体到公式还没有特别明白，暂时没有找到明晰的图解或示例<br />
TODO ： 公式示例</p>
</blockquote>
]]></description><link>http://an.forum.genostack.com/post/20</link><guid isPermaLink="true">http://an.forum.genostack.com/post/20</guid><dc:creator><![CDATA[ice-melt]]></dc:creator><pubDate>Thu, 23 Jul 2020 08:59:07 GMT</pubDate></item><item><title><![CDATA[Reply to 多样性指标的简要介绍 on Thu, 23 Jul 2020 08:20:24 GMT]]></title><description><![CDATA[<h1>jaccard index</h1>
<h2>简介</h2>
<p dir="auto"><code>jaccard index</code>（杰卡德指数）又称为<code>jaccard similarity coefficient</code>(杰卡德相似度系数)，用于比较有限样本集之间的相似性和差异性。在处理离散型（类别型）变量的相识度时非常有用。</p>
<p dir="auto"><code>jaccard</code>相似度的缺点是只适用于二元数据的集合。元素的取值只能是0或者1，无法利用更丰富的信息。</p>
<h2>公式</h2>
<p dir="auto">给定两个集合<code>A</code>,<code>B</code>， <code>jaccard</code> 系数定义为<code>A</code>与<code>B</code>交集的大小与并集大小的比值：</p>
<p dir="auto"><img src="/assets/uploads/files/1595491883153-codecogseqn.png" alt="CodeCogsEqn.png" class=" img-responsive img-markdown" /></p>
<p dir="auto"><img src="/assets/uploads/files/1595491927567-23a97fa4-3e40-4f8c-a730-c7cc76474f8e-image.png" alt="23a97fa4-3e40-4f8c-a730-c7cc76474f8e-image.png" class=" img-responsive img-markdown" /></p>
<p dir="auto">这个太好理解了 就不举例说明了。。。</p>
<p dir="auto">由相似度，可以转换成<code>Jaccard</code>距离：</p>
<p dir="auto"><code>Jaccard distance （A, B） = 1- Jaccard（A, B）</code></p>
]]></description><link>http://an.forum.genostack.com/post/19</link><guid isPermaLink="true">http://an.forum.genostack.com/post/19</guid><dc:creator><![CDATA[ice-melt]]></dc:creator><pubDate>Thu, 23 Jul 2020 08:20:24 GMT</pubDate></item><item><title><![CDATA[Reply to 多样性指标的简要介绍 on Thu, 23 Jul 2020 08:04:17 GMT]]></title><description><![CDATA[<h1>Bray-Curtis距离</h1>
<h2>简介</h2>
<p dir="auto"><code>Bray-Curtis</code>距离是以该统计指标的提出者<code>J. Roger Bray</code>和<code>John T. Curtis</code>的名字命名的,主要基于OTUs的计数统计比较两个群落微生物的组成差异。D值越小表示二者组成差异小。</p>
<h2>公式</h2>
<p dir="auto"><img src="/assets/uploads/files/1595490905962-codecogseqn.png" alt="CodeCogsEqn.png" class=" img-responsive img-markdown" /></p>
<ul>
<li><code>S_{A,i}</code> 和 <code>S_{B,i}</code> 表示第i个OTU分别在A群落和B群落中的计数</li>
</ul>
<p dir="auto">举例说明<br />
群落A和群落B的OTU统计如下表：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>community</th>
<th>OTU1</th>
<th>OTU2</th>
<th>OTU3</th>
<th>OTU4</th>
<th>OTU5</th>
</tr>
</thead>
<tbody>
<tr>
<td>A</td>
<td>10</td>
<td>8</td>
<td>4</td>
<td>1</td>
<td>1</td>
</tr>
<tr>
<td>B</td>
<td>7</td>
<td>3</td>
<td>8</td>
<td>4</td>
<td>0</td>
</tr>
</tbody>
</table>
<p dir="auto">min(S_(B,i)S_(B,i)) = 7+3+4+1+0 = 15</p>
<p dir="auto">sum(S_(A,i)) = 10+8+4+1+1 = 24<br />
sum(S_(A,i)) = 7+3+4+8+4+0 = 22</p>
<p dir="auto">D = 1 - 2*15/(24+22) = 0.3478</p>
]]></description><link>http://an.forum.genostack.com/post/18</link><guid isPermaLink="true">http://an.forum.genostack.com/post/18</guid><dc:creator><![CDATA[ice-melt]]></dc:creator><pubDate>Thu, 23 Jul 2020 08:04:17 GMT</pubDate></item></channel></rss>