第 2 章
机器学习快速入门
极少一帆风顺
在开展机器学习项目的过程中,没有人可以从始至终一帆风顺。您需要不断迭代并尝试不同思路和方法。本节介绍系统化机器学习工作流,着重说明其中的一些关键决策点。
真实数据集可能混乱且不完整,其格式也多种多样。您可能有简单的数值数据。但有时,您要结合使用多种不同类型的数据,例如传感器信号、文本,以及来自相机的流式传输图像。
例如,若要选取特征以训练目标检测算法,需要具备图像处理专业知识。不同类型的数据需要采用不同的预处理方法。
选择正确的模型是一门平衡艺术。如果模型高度灵活,则往往会因为对细微变化(可能是噪声)进行建模,而导致数据过拟合。另一方面,如果模型简单的话,则可能需要做出更多假设。因此,始终要在模型速度、准确性和复杂性之间权衡取舍。
每个机器学习工作流都是从以下三个问题开始的:
- 您要处理哪种类型的数据?
- 您想从中获得哪些信息?
- 这些信息将如何应用以及用在何处?
回答这些问题有助于您决定是采用有监督学习还是无监督学习。
在以下情况下选择有监督学习:您需要训练模型进行预测(例如温度和股价等连续变量的值),或者执行分类(例如根据网络摄像头的视频片段确定汽车品牌)。
在以下情况下选择无监督学习:您需要深入了解数据,并希望通过训练模型找到良好的内部表示形式,例如将数据分为若干簇。
工作流概览
下载完整 PDF,详细了解具体步骤。这些步骤以健康监测 App 为例进行说明。整个工作流将在 MATLAB® 中完成。
- 访问和加载数据
- 预处理数据
- 推导 - 使用经过预处理的数据推导特征
- 训练 - 使用在第 3 步中推导的特征训练模型
- 迭代 - 通过迭代找到最佳模型
- 集成 - 将经过最佳训练的模型集成到生产系统中