主成分分析 (PCA)
多元统计中的一个固有困难是可视化多元数据的问题。函数 plot
显示两个变量之间的关系图。plot3
和 surf
命令显示不同三维视图。但是,当有三个以上的变量时,它们之间的关系就更难可视化。
幸运的是,在有许多变量的数据集中,变量组经常一起移动。其中一个原因是,可能有多个变量可用于衡量控制系统行为的同一个驱动原理。在许多系统中,这样的驱动力为数不多。但是,大量的检测可以让您测量几十个系统变量。当这种情况发生时,您可以利用信息的冗余。您可以通过用单个新变量替换一组变量来简化问题。
主成分分析以严格定量的方式来实现这种简化。该方法生成一组新变量,称为主成分。每个主成分是原始变量的线性组合。所有主成分相互正交,所以没有冗余信息。主成分作为一个整体构成了数据空间的一个正交基。
有无数种方法可以为几列数据构造正交基。主成分基有什么特别之处?
第一个主成分是空间中的单轴。当您将每个观测值投影到该轴上时,得到的值将形成一个新变量。此变量的方差是第一个轴的所有可能选择中的最大值。
第二个主成分是空间中的另一个轴,与第一个轴垂直。将观测值投影到此轴上会生成另一个新变量。此变量的方差是此第二个轴的所有可能选择中的最大值。
主成分的完整集合与原始变量的集合大小相同。但是,前几个主成分的方差之和通常会超过原始数据总方差的 80%。通过检查这几个新变量的图,研究人员通常会对生成原始数据的驱动因素有更深的理解。
您可以使用函数 pca
来查找主成分。要使用 pca
,您需要有要分析的实际测量数据。但是,如果您缺少实际数据,但有数据的样本协方差或相关矩阵,您仍可以使用函数 pcacov
来执行主成分分析。有关其输入和输出的说明,请参阅 pcacov
的参考页。
当您需要处理来自数据流的传入数据时,可以通过使用 incrementalPCA
函数创建增量 PCA 模型对象来执行增量 PCA。创建模型对象时,您可以指定默认模型,或指定初始主成分系数和方差。fit
函数对传入数据块进行模型拟合,并将更新后的 PCA 属性存储在输出模型中。在模型预热后,fit
函数可以选择性地返回主成分分数。transform
函数接受输入数据块并使用增量 PCA 模型对其进行变换。
另请参阅
pca
| pcacov
| pcares
| ppca
| incrementalPCA