Main Content

本页的翻译已过时。点击此处可查看最新英文版本。

主成分分析 (PCA)

多元统计中的一个固有困难是可视化多变量数据的问题。函数 plot 显示两个变量之间的关系图。plot3surf 命令显示不同三维视图。但是,当有三个以上的变量时,它们之间的关系就更难可视化。

幸运的是,在有许多变量的数据集中,变量组经常一起移动。其中一个原因是,可能有多个变量可用于衡量控制系统行为的同一个驱动原理。在许多系统中,这样的驱动力为数不多。但是,大量的检测可以让您测量几十个系统变量。当这种情况发生时,您可以利用信息的冗余。您可以通过用单个新变量替换一组变量来简化问题。

主成分分析以严格定量的方式来实现这种简化。该方法生成一组新变量,称为主成分。每个主成分是原始变量的线性组合。所有主成分相互正交,所以没有冗余信息。主成分作为一个整体构成了数据空间的一个正交基。

有无数种方法可以为几列数据构造正交基。主成分基有什么特别之处?

第一个主成分是空间中的单轴。当您将每个观测值投影到该轴上时,得到的值将形成一个新变量。此变量的方差是第一个轴的所有可能选择中的最大值。

第二个主成分是空间中的另一个轴,与第一个轴垂直。将观测值投影到此轴上会生成另一个新变量。此变量的方差是此第二个轴的所有可能选择中的最大值。

主成分的完整集合与原始变量的集合大小相同。但是,前几个主成分的方差之和通常会超过原始数据总方差的 80%。通过检查这几个新变量的图,研究人员通常会对生成原始数据的驱动因素有更深的理解。

您可以使用函数 pca 来查找主成分。要使用 pca,您需要有要分析的实际测量数据。但是,如果您缺少实际数据,但有数据的样本协方差或相关矩阵,您仍可以使用函数 pcacov 来执行主成分分析。有关其输入和输出的说明,请参阅 pcacov 的参考页。

另请参阅

| | |

相关主题