三文读懂PCA和PCoA(二)

 

通过上一篇文章《三文读懂PCA和PCoA(一)》的学习,我们对PCA和PCoA有了较为深刻的理解,我们了解到“PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标”。

不过,我们知道了PCA和PCoA的定义只能加深对它们的认识,那么又该何时使用PCA,何时使用PCoA,以及如何制作PCA和PCoA图呢?这就是我们科研工作者比较关心的一个问题了(#就比如我们知道水稻和小麦都能吃,但是什么季节吃水稻什么季节吃小麦以及怎么做米饭和馒头才是老百姓最为关心的问题#)。

同样的,这篇文章小编就来谈谈对这些问题的理解和感悟。(#咳,专业术语实在玩不来#)

1

根据样本数和物种数判断

通过《三文读懂PCA和PCoA(一)》,我们知道PCA基于物种丰度矩阵来定义的,而PCoA基于样本间的距离矩阵来定义的。这一点非常关键。

PCA基于物种丰度矩阵就意味着PCA分析的矩阵维度是就等于物种数目。换句话说,你要分析的样本如果要做PCA分析,那么一般来说有多少个物种就有多少个维度(2个物种就是在二维空间上分布,3个物种就是在三维空间上分布)。

同样的道理,PCoA基于样本间的距离矩阵就意味着PCoA分析的矩阵维度与样本数目相关。如果你要分析的样本做PCoA分析的话,那么一般来说有n个样本就至多有n-1个维度。比如3个样本就是在二维空间上分布,4个样本就是在三维空间上分布。如果把样本理解成点的话,简单地说就是三点一面,四点一空间。

三点一面

另外,我们还知道无论是PCA还是PCoA,一般都需要降维处理(一般物种数目都超过3个,样本数目都超过4个),而降维就会产生数据损失。多数情况下,我们在做降维处理的时候,期望维数越低越好,这样我们就可以最大程度地保真原始数据。比如一维和二维数据一般不需要降维处理(直接呈现);再比如要想把三维坐标系的数据降维到一维坐标系上,我们首先要把三维空间的数据降维到二维空间上(此时损失一部分),再将二维空间的数据降维到一维空间上(再损失一部分)。

那这样就好办了。

如果样本数目比较多,而物种数目比较少,那肯定首选PCA;如果样本数目比较少,而物种数目比较多,那肯定首选PCoA。

举两个极端的例子:

a. 如果有100个样本,但一共有2个物种,此时肯定首选PCA;

2个物种PCA分析只有2个维度

b. 如果有3个样本,但一共有100个物种,此时肯定首选PCoA。

3个样本做PCoA分析

a这种情况如果选用PCA,2个物种就可在二维坐标系上分析,如果选用PCoA,100个样本可能就需要在99维坐标系上分析,然后还需要再降维处理;同样的道理,b这种情况如果选用PCoA,3个样本就可以在二维坐标系上分析,如果选用PCA可能就需要在100维坐标系上分析。

那么选用PCA和PCoA分析时,这个样本数和物种数有没有一个界限或者标准呢?很遗憾,小编也无法解答这个问题。或许存在这样一个界限或者标准,但是小编更倾向于认为统计分析并不是死板的。像a和b这两种情况毕竟都是少数,如果物种数和样本数相当以致于难以抉择时,不妨根据项目经验做一些调整,或者两种分析都做选择一个合适的(怎么看都感觉这是一句废话)。灵活调整实验策略对于科研工作者来说同样重要(还是一句废话。。。。)

2

对物种或样本做出取舍

实际上,我们往往会遇到“100个样本,100个物种”这种比较容易常见的情况。对于绝大多数学者而言,一般不会将每一个物种都研究透彻, 通常情况我们会选择几十个较为关键的物种或感兴趣的物种进行后续的研究。同样的,对于样本,我们往往会设置3个以上的重复(视情况而定,有的需要5个重复以上),此时我们需要选择重复性好的样本进行后续研究。

因此,小编认为,在做PCA和PCoA分析之前,首先要对物种和样本做一些简单的取舍,选择合适的样本或物种进行分析准确度会比较好(比如某一个物种,在1个样本出现,在其他99个样本均未出现,那这个物种很有可能是一个污染的物种,个人认为可以剔除),特别是那些之前研究认为关键的物种、丰度较高的物种或者有显著性差异的物种,往往会有意想不到的效果(假设某一物种在100个样本里的丰度都是1%,那其实这个物种会拉近各个样本的距离)。

物种1在3个样本中的丰度较高

那么如何选择这些差异性的物种呢?通过统计假设检验(显著性分析)就可以选出这些物种,如有需求,小编在后面几篇文章中详细介绍一些统计假设检验的方法。一般而言,很多老师会选择做微生物16S测序,其实很多公司在测序报告当中都会有PCA和PCoA分析,而且也会有统计假设检验分析,所以将PCA或PCoA分析与统计假设检验相结合的话,分析效果会比较好。

3

PCA和PCoA都做分析

如今计算能力如此发达,做PCA和PCoA基本都是分分钟的事情,不妨2个都可进行分析,这里不再赘述。(那之前说的这些还有什么用?古人云:知其然,知其所以然)

讲到这里,我们对PCA和PCoA的选用就有了一个基本的认识了。还剩最后一篇章,小编计划再介绍一下PCA和PCoA背后的算法就预备完结了。如果大家有有疑问或其他见解,欢迎留言讨论~

特此声明:

1、 本文仅供读者理解,非专业学术论证;

2、 本文为小编的一点感悟心得,非常欢迎各位业界同行的讨论与交流,同时也非常欢迎各位专家老师的指正,您的一个问题会使我们共同进步!