什么是线性回归
线性回归是一种统计建模方法,用来将连续响应变量描述为一个或多个预测变量的函数。它有助于您理解和预测复杂系统的行为,或者分析试验、金融和生物数据。
使用线性回归方法创建一个线性模型。该模型描述因变量 \(y\)(也称为响应变量)和一个或多个自变量 \(X_i\)(又称为预测变量)之间的关系。线性回归模型的一般方程为:
\[Y = \beta_0 + \sum \ \beta_k X_k + \epsilon_i\]
其中 \(\beta\) 表示要计算的线性参数估计值,\(\epsilon\) 表示误差项。
线性回归的类型
简单线性回归(仅使用一个预测变量的模型):一般方程为:
\[Y = \beta_0 + \beta_1 X+ \epsilon\]

一个简单线性回归示例,显示了如何利用州人口(预测变量 \(X\))来预测该州的致命交通事故数量(响应变量 \(Y\))。(请参阅 MATLAB® 代码示例,了解如何使用 mldivide 运算符估计简单线性回归的系数。)
多重线性回归(使用多个预测变量的模型):此回归使用多个 \(X_i\) 来预测响应,也就是 \(Y\)。此方程的一个示例是:
\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2+ \epsilon\]

多重线性回归示例:它根据重量和马力(预测变量 \(X_j\))预测不同汽车的每加仑英里数 (MPG)(响应变量 \(Y\))。(请参阅 MATLAB 代码示例,了解如何使用 regress 函数并确定多重线性回归关系的显著性。)
多元线性回归(用于多个响应变量的模型):此回归有从同一数据 \(X\) 推断出的多个 \(Y_i\)。它们用不同公式表示。此类方程组的一个包含 2 个方程的示例为:
\[Y_1 = \beta_{01} + \beta_{11} X_1 + \epsilon_1\]
\[Y_2 = \beta_{02} + \beta_{1 2}X_1 + \epsilon_2\]

多元线性回归示例:显示了如何根据一年中的周次(预测变量 \(X\)来预测 9 个地区的流感估算值(响应变量 \(Y_i\)。(请参阅 MATLAB 代码示例,了解如何使用 mvregress 函数确定多元线性回归的估计系数。)
多元多重线性回归(针对多个响应变量使用多个预测变量的模型):此回归使用多个 \(X_i\) 来预测多个响应 \(Y_i\)。方程的泛化形式是:

多元多重线性回归示例:根据三个变量,即轴距、整备重量和燃油类型(预测变量 \(X_1\)、\(X_2\) 和 \(X_3\)),计算市区和高速公路 MPG(作为响应变量 \(Y_1\) 和 \(Y_2\))。(请参阅 MATLAB 代码示例,了解如何使用 mvregress 函数估计系数。)
线性回归的应用
线性回归的某些属性使其非常适合以下应用:
- 预测或预报:使用回归模型为特定数据集构建预测模型。根据该模型,您可以使用回归在仅知道预测变量的情况下预测响应值。
- 回归的强度: 使用回归模型确定变量与预测变量之间是否存在关系,以及这种关系的强度如何。
使用 MATLAB 进行线性回归
工程师通常使用 MATLAB 创建简单线性回归模型。对于多重和多元线性回归,您可以使用 MATLAB 的 Statistics and Machine Learning Toolbox™。它支持逐步回归、稳健回归和多元回归以实现以下目的:
- 生成预测
- 比较线性模型拟合
- 绘制残差图
- 评估拟合优度
- 检测离群值
要创建一个对数据进行曲线和曲面拟合的线性模型,请参阅 Curve Fitting Toolbox™。
示例和操作方法
软件参考
另请参阅: 时间序列回归