第 4 章
应用有监督学习
何时考虑有监督学习
有监督学习算法采用一组已知的输入数据(训练集)和对该数据的已知响应(输出)对模型进行训练,使其能够对新输入数据的响应做出合理的预测。如果您尝试预测现有数据的输出,请使用有监督学习。
所有的有监督学习方法都可归为两种类型:分类或回归。
分类方法可预测离散响应 - 例如,电子邮件是真实邮件还是垃圾邮件,肿瘤是小块、中块还是大块。分类模型经过训练可将数据分成不同类别。应用包括医学成像、语音识别和信用评分。
回归方法可预测连续响应 - 例如,温度变化或电力需求波动。应用包括股价预测、笔迹识别和声信号处理。
选择合适的算法
如第 1 章所述,选择机器学习算法是一个试错的过程。它也是一个权衡算法的各个具体特征的过程,这些特征包括:
- 训练的速度
- 内存使用量
- 对新数据预测的准确度
- 透明度或可解释性(您对算法预测依据的理解难易程度)
常见分类算法
逻辑回归
工作原理
拟合一个模型,该模型可预测属于一个类或另一个类的二元响应的概率。逻辑回归算法以其简单性常被作为解决二类分类问题的入门方法。最佳使用情形...
- 当数据能由一个线性边界清晰划分时
- 作为评估更复杂分类方法的基准
k 最近邻 (kNN)
工作原理
kNN 算法根据数据集中一个对象的最近邻的类对该对象进行分类。kNN 算法预测假设,彼此靠近的对象是相似的。距离度量,如欧氏距离、城市街区距离、余弦距离和切比雪夫距离,可用来寻找最近邻。最佳使用情形...
- 当您需要简单算法来设立基准学习规则时
- 当不太需要关注训练模型的内存使用量时
- 当不太需要关注训练模型的预测速度时
支持向量机 (SVM)
工作原理
通过寻找能将一个类的全部数据点与其他类的全部数据点分开的线性决策边界(超平面)对数据进行分类。对于 SVM,如果数据是线性可分的,则最佳超平面是以最大边距将两个类分开的超平面。如果数据不是线性可分的,则该算法会使用损失函数对位于超平面错误一侧的点进行罚分。有时,SVM 会使用核变换,将非线性可分的数据变换为可找到线性决策边界的更高维度。最佳使用情形...
- 适用于正好有两个类的数据(您也可以将该算法与纠错输出编码方法结合使用执行多类分类)
- 适用于非线性可分的高维数据
- 当您需要一个简单准确且易于解释的分类器时
神经网络
工作原理
受人脑的启发,一个神经网络由高度互连的若干神经元网络组成,这些神经元将输入与所需输出相关联。在训练该网络的过程中,以迭代方式修改连接的强度,使给定的输入能够映射到正确的响应。最佳使用情形...
- 适用于高度非线性系统建模
- 当您希望模型随着数据逐渐增多而不断进行更新时
- 当您的输入数据可能有意外更改时
- 当模型可解释性不是主要考虑因素时
朴素贝叶斯
工作原理
朴素贝叶斯分类器假设,类中某一特定特征的存在与任何其他特征的存在不相关。该算法根据新数据属于某个特定类的最高概率对该数据进行分类。最佳使用情形...
- 适用于包含许多参数的小型数据集
- 当您需要易于解释的分类器时
- 当模型会遇到训练数据中未包含的场景时(这种情况常见于诸多金融和医学应用领域)
判别分析
工作原理
判别分析通过发现特征的线性组合对数据进行分类。判别分析假定,不同的类根据高斯分布生成数据。训练判别分析模型就是寻找每个类的高斯分布参数的过程。分布参数用来计算边界,这些边界可能为线性函数或二次函数,用来确定新数据的类。最佳使用情形...
- 当您需要易于解释的简单模型时
- 当需要考虑训练过程中的内存使用量时
- 当您需要快速预测的模型时
决策树
工作原理
决策树可用于预测对数据的响应,方法是按照从树中根节点(起始位置)到叶节点的顺序自上而下地决策。树由分支条件组成,在这些条件中,预测变量的值与训练得到的权重进行比较。分支的数量和权重的值在训练过程中确定。您还可以通过额外的修改或剪枝来简化模型。最佳使用情形...
- 当您需要易于解释和快速拟合的算法时
- 要最大限度减少内存使用量时
- 当不要求很高的预测准确度时
装袋决策树和提升决策树
工作原理
在这些集成方法中,若干“较弱”的决策树组合成一个“较强”的集成决策树。一个装袋决策树由若干树组成,这些树是根据从输入数据中自助采样得到的数据独立训练的。
提升决策树就是创建一个强学习器,具体方法是以迭代方式添加“弱”学习器,并调整每个弱学习器的权重,以关注错误分类的样本。
最佳使用情形...
- 当预测变量为分类(离散)预测变量或表现非线性时
- 当不太需要关注训练模型所用时间时
常见回归算法
线性回归
工作原理
线性回归是一种统计建模方法,用来将连续响应变量描述为一个或多个预测变量的线性函数。由于线性回归模型易于解释和训练,它们通常是拟合新数据集时采用的首选模型。最佳使用情形...
- 当您需要易于解释和快速拟合的算法时
- 作为评估其他更复杂的回归模型的基准
非线性回归
工作原理
非线性回归是一种统计建模方法,有助于描述试验数据中的非线性关系。非线性回归模型通常被视为参数化模型,其中模型描述为非线性方程。“非线性”指的是拟合函数,该函数是参数的非线性函数。例如,如果拟合参数为 b0、b1 和 b2,则方程 y = b0+b1x+b2x2 是拟合参数的线性函数,而 y = (b0xb1)/(x+b2) 是拟合参数的非线性函数。
最佳使用情形...
- 当数据呈现很强的非线性趋势,且不容易变换为线性空间时
- 适用于将自定义模型拟合到数据
高斯过程回归模型
工作原理
高斯过程回归 (GPR) 模型是非参数化模型,用于预测连续响应变量的值。这些模型在空间分析领域广泛用于存在不确定性时的插值计算。GPR 也称为克里金法 (Kriging) 。最佳使用情形...
- 适用于通过插值方法处理空间数据,如用于研究地下水分布的水文地质数据
- 作为有助于优化汽车发动机等复杂设计的替代模型
SVM 回归
工作原理
SVM 回归算法与 SVM 分类算法类似,但是经过修正,能够预测连续响应。SVM 回归算法不是寻找一个分隔数据的超平面,而是寻找一个偏离所测量数据的模型,其中,偏离的值不大于一个较小的数量,并且采用的参数值尽可能小(旨在最大限度降低对误差的敏感度)。最佳使用情形...
- 适用于高维数据(其中将会有大量的预测变量)
广义线性模型
工作原理
广义线性模型是使用线性方法的非线性模型的一种特例。它涉及将输入的线性组合拟合到输出的非线性函数(联系函数)中。最佳使用情形...
- 当响应变量有非正态分布时,比如始终应为正值的响应变量
回归树
工作原理
回归决策树与分类决策树类似,但是经过修正,能够预测连续响应。最佳使用情形...
- 当预测变量为分类(离散)预测变量或表现非线性时
推荐的后续步骤
选择网站
选择网站以获取翻译的可用内容,以及查看当地活动和优惠。根据您的位置,我们建议您选择:。
您也可以从以下列表中选择网站:
如何获得最佳网站性能
选择中国网站(中文或英文)以获得最佳网站性能。其他 MathWorks 国家/地区网站并未针对您所在位置的访问进行优化。
美洲
- América Latina (Español)
- Canada (English)
- United States (English)
欧洲
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)