第 2 章

机器学习快速入门


极少一帆风顺

在开展机器学习项目的过程中,没有人可以从始至终一帆风顺。您需要不断迭代并尝试不同思路和方法。本节介绍系统化机器学习工作流,着重说明其中的一些关键决策点。

真实数据集可能混乱且不完整,其格式也多种多样。您可能有简单的数值数据。但有时,您要结合使用多种不同类型的数据,例如传感器信号、文本,以及来自相机的流式传输图像。

例如,若要选取特征以训练目标检测算法,需要具备图像处理专业知识。不同类型的数据需要采用不同的预处理方法。

选择正确的模型是一门平衡艺术。如果模型高度灵活,则往往会因为对细微变化(可能是噪声)进行建模,而导致数据过拟合。另一方面,如果模型简单的话,则可能需要做出更多假设。因此,始终要在模型速度、准确性和复杂性之间权衡取舍。

每个机器学习工作流都是从以下三个问题开始的:

  • 您要处理哪种类型的数据?
  • 您想从中获得哪些信息?
  • 这些信息将如何应用以及用在何处?

回答这些问题有助于您决定是采用有监督学习还是无监督学习。

在以下情况下选择有监督学习:您需要训练模型进行预测(例如温度和股价等连续变量的值),或者执行分类(例如根据网络摄像头的视频片段确定汽车品牌)。

在以下情况下选择无监督学习:您需要深入了解数据,并希望通过训练模型找到良好的内部表示形式,例如将数据分为若干簇。

工作流概览

下载完整 PDF,详细了解具体步骤。这些步骤以健康监测 App 为例进行说明。整个工作流将在 MATLAB® 中完成。

  1. 访问和加载数据
  2. 预处理数据
  3. 推导 - 使用经过预处理的数据推导特征
  4. 训练 - 使用在第 3 步中推导的特征训练模型
  5. 迭代 - 通过迭代找到最佳模型
  6. 集成 - 将经过最佳训练的模型集成到生产系统中