使用 MATLAB 进行机器学习

第 1 章

机器学习简介

更多的数据和问题、更好的答案

机器学习算法可在数据中寻找自然模式，以生成有用的信息，帮助您做出更明智的决策和更准确的预测。每天，医疗诊断、股票交易和能源负荷预测等行业都在利用这些算法做出关键决策。媒体网站依靠机器学习算法从数百万种选择中筛选出为您推荐的歌曲或影片。零售商利用这些算法深入了解客户的购买行为。

汽车和制造业，用于预测性维护

计算金融学，用于信用评分和算法交易

图像处理和计算机视觉，用于人脸识别和目标检测

计算生物学，用于肿瘤检测、药物发现和 DNA 测序

能源生产，用于价格和负荷预测

自然语言处理

实际应用：

机器学习的工作原理

机器学习采用两种方法：有监督学习和无监督学习。有监督学习根据已知的输入和输出数据训练模型，让模型能够预测未来输出；无监督学习从输入数据中找出隐藏模式或内在结构。

有监督
无监督

分类
回归

分类方法可预测离散响应，例如，电子邮件是真实邮件还是垃圾邮件，肿瘤是恶性的还是良性的。分类模型可将输入数据分成不同类别。典型的应用包括医学成像、语音识别和信用评分。

回归方法可预测连续响应，例如温度变化或电力需求波动。典型的应用包括电力负荷预测和算法交易。

无监督学习可发现数据中的隐藏模式或内在结构。它可用于根据由输入数据组成且不含标注响应的数据集做出推断。

聚类是最常见的无监督学习方法。它可用来执行探索性数据分析，以发现数据中的隐藏模式或分组。

聚类的应用包括基因序列分析、市场调研和目标识别。

如何确定使用哪种算法？

选择正确的算法看似相当困难，因为有监督和无监督机器学习算法有几十种，每种算法都使用了不同的学习方法。对于机器学习算法，没有最佳方法，也无万全之策。在一定程度上讲，找到正确的算法就是一个试错的过程，即使经验丰富的数据科学家，也无法在试用前就断言某种算法是否合适。而且，算法的选择还取决于要处理的数据大小和类型、要从数据中获得的信息以及如何运用这些信息。