第 3 章

应用无监督学习


何时考虑无监督学习

无监督学习适用的场景是,您想要探查数据,但还没有特定目标或不确定数据包含什么信息。无监督学习也是减少数据维度的好方法。

第 1 章中所述,大多数无监督学习方法都属于聚类分析的范畴。

在聚类分析中,数据根据某种相似性度量或共有特征划分成若干组。这些组(即簇)的形成基于以下原则:同一簇中的对象非常相似,而不同簇中的对象显著不同。

聚类算法大致分为两种:

  • 硬聚类,其中每个数据点只属于一个簇。
  • 软聚类,其中每个数据点可属于多个簇。如果您已经知道可能的数据分组,则可以使用硬聚类或软聚类方法。
使用高斯方法的簇模型的图形

使用高斯混合模型将数据分成两个簇。

如果您不知道数据的可能分组方式:

  • 使用自组织特征映射或层次聚类,寻找数据中可能的结构。
  • 使用簇评估,寻找给定聚类算法的“最佳”组数。

常见硬聚类算法

常见软聚类算法