主成分分析 (PCA)

多元统计中的一个固有困难是可视化多元数据的问题。函数 plot 显示两个变量之间的关系图。plot3 和 surf 命令显示不同三维视图。但是，当有三个以上的变量时，它们之间的关系就更难可视化。

幸运的是，在有许多变量的数据集中，变量组经常一起移动。其中一个原因是，可能有多个变量可用于衡量控制系统行为的同一个驱动原理。在许多系统中，这样的驱动力为数不多。但是，大量的检测可以让您测量几十个系统变量。当这种情况发生时，您可以利用信息的冗余。您可以通过用单个新变量替换一组变量来简化问题。

主成分分析以严格定量的方式来实现这种简化。该方法生成一组新变量，称为主成分。每个主成分是原始变量的线性组合。所有主成分相互正交，所以没有冗余信息。主成分作为一个整体构成了数据空间的一个正交基。

有无数种方法可以为几列数据构造正交基。主成分基有什么特别之处？

第一个主成分是空间中的单轴。当您将每个观测值投影到该轴上时，得到的值将形成一个新变量。此变量的方差是第一个轴的所有可能选择中的最大值。

第二个主成分是空间中的另一个轴，与第一个轴垂直。将观测值投影到此轴上会生成另一个新变量。此变量的方差是此第二个轴的所有可能选择中的最大值。

主成分的完整集合与原始变量的集合大小相同。但是，前几个主成分的方差之和通常会超过原始数据总方差的 80%。通过检查这几个新变量的图，研究人员通常会对生成原始数据的驱动因素有更深的理解。

您可以使用函数 pca 来查找主成分。要使用 pca，您需要有要分析的实际测量数据。但是，如果您缺少实际数据，但有数据的样本协方差或相关矩阵，您仍可以使用函数 pcacov 来执行主成分分析。有关其输入和输出的说明，请参阅 pcacov 的参考页。

当您需要处理来自数据流的传入数据时，可以通过使用 incrementalPCA 函数创建增量 PCA 模型对象来执行增量 PCA。创建模型对象时，您可以指定默认模型，或指定初始主成分系数和方差。fit 函数对传入数据块进行模型拟合，并将更新后的 PCA 属性存储在输出模型中。在模型预热后，fit 函数可以选择性地返回主成分分数。transform 函数接受输入数据块并使用增量 PCA 模型对其进行变换。

另请参阅

pca | pcacov | pcares | ppca | incrementalPCA

主题

Analyze Quality of Life in US Cities Using PCA