聚类分析
无监督学习方法,用于查找数据中的自然分组和模式
聚类分析,也称为分割分析或分类分析,可将样本数据分成一个个组(即簇)。同一簇中的对象是相似的,不同簇中的对象则明显不同。Statistics and Machine Learning Toolbox™ 提供了几种聚类方法和相似性度量(也称为距离度量)来创建簇。此外,簇计算可以按照不同的计算标准确定数据的最佳簇数。聚类可视化选项包括树状图和轮廓图。该工具箱还提供了几种异常检测方法来识别离群值和新奇值。
聚类分析基础知识
类别
- 层次聚类
生成一系列嵌套的簇
- k 均值聚类和 k 中心点聚类
通过最小化均值距离或中心点距离进行聚类并计算马氏距离
- 基于密度的含噪数据空间聚类
通过使用 DBSCAN 算法来计算簇和离群值
- 谱聚类
使用基于图的算法计算簇
- 高斯混合模型
使用期望最大化算法,基于高斯混合模型进行聚类
- 最近邻
使用穷举搜索或 Kd 树搜索查找最近邻
- 隐马尔可夫模型
用于生成数据的马尔可夫模型
- 异常检测
检测离群值和新奇值
- 簇的可视化和计算
绘制数据簇并计算最佳簇数