Statistics and Machine Learning Toolbox

运用统计与机器学习进行数据分析及建模

 

Statistics and Machine Learning Toolbox™ 提供用来描述、分析数据和对数据建模的函数和应用程序。您可以使用描述性统计和绘图进行探查数据分析,对数据进行概率分布拟合,生成用于 Monte Carlo 仿真的随机数,以及执行假设检验。回归和分类算法用于依据数据执行推理并构建预测模型。

对于多维数据分析,Statistics and Machine Learning Toolbox 提供特征选择、逐步回归、主成分分析 (PCA)、正则化和其他降维方法,从而确定影响您的模型的变量或特征。

该工具箱提供了监督和非监督机器学习算法,包括支持向量机 (SVM)、促进式 (boosted) 和袋装 (bagged) 决策树、k-最近邻、k-均值、k-中心点、分层聚类、高斯混合模型和隐马尔可夫模型。许多统计和机器学习算法可以用于大到无法在内存中存储的数据集的计算。

探索性数据分析

通过交互式图形的统计绘图和描述性统计来探查数据。使用聚类识别模式和特征。

可视化

使用概率图、箱线图、直方图、分位数-分位数图以及用于多元分析的高级绘图(如系统树图、双标图和 Andrews 图)以直观方式浏览数据。

使用多维散点图表现各变量之间的关系。

描述性统计

使用少量密切相关的数字快速了解和描述较大的数据集。

使用分组的均值和方差浏览数据。

聚类分析

通过使用 k-均值、k-中心点、DBSCAN、分层聚类、高斯混合和隐马尔可夫模型对数据分组来发现规律。

将 DBSCAN 应用于两个同心组。

特征提取和降维

将原始数据转化为最适合机器学习的特征。以迭代方式浏览和创建新特征,并选择优化性能的特征。

特征提取

使用无监督学习技术(如稀疏滤波和重构 ICA)从数据中提取特征。您还可以使用专门的技术,从图像、信号、文本和数值数据中提取特征。

从移动设备提供的信号中提取特征。 

特征选择

自动识别在建模数据中具有最强预测能力的特征子集。特征选择方法包括逐步回归、序列特征选择、正则化和集成方法。

NCA 有助于选择可最大程度保留模型精确度的特征。

特征变换和降维

将现有特征(非类别型)变换为描述性特征减少数量较少的新预测变量,从而降低维度。特征变换方法包括 PCA、因子分析和非负矩阵因式分解。

PCA 将许多变量投映到少数几个可保留大部分信息的正交变量上。

机器学习

使用交互式应用程序构建预测性分类和回归模型。通过优化超参数自动选择特征和调节模型。

训练、验证和调节预测模型

比较各种机器学习算法,选择特征,调节超参数,评估预测性能。

分类

将一个类别应变量建模为一个或多个预测变量的函数。使用各种参数型和非参数型分类算法,包括逻辑回归、SVM、促进式 (boosted) 和袋装 (bagged) 决策树、朴素贝叶斯、判别分析和 K 最近邻。

使用 Classification Learner App以交互方式训练分类器。

模型自动优化

通过自动调节超参数、选择特征和使用成本矩阵处理数据集不平衡,从而提高模型性能。

通过贝叶斯优化实现超参数高效优化。

回归和方差分析

使用线性和非线性回归、混合效应模型、广义线性模型和非参数化回归,将一个连续应变量建模为一个或多个预测变量的函数。使用方差分析对不同的源分配方差。

线性和非线性回归

使用从许多线性和非线性回归算法中选择的多个预测变量或应变量对复杂系统的行为建模。拟合具有嵌套和/或交叉随机效应的多层或分层、线性、非线性和广义线性混合效应模型,以便进行纵向或面板分析、重复测量和成长建模。

使用 Regression Learner App以交互方式拟合回归模型。

非参数化回归

在没有指定描述预测元与应变量之间关系的模型的情况下生成准确的拟合,包括 SVM、随机森林、高斯过程和高斯核。

 使用分位数回归识别异常值。

方差分析 (ANOVA)

将样本方差指定给不同的源,然后确定在不同的群体组内或组间是否产生方差。使用单因素、双因素、多因素、多变量和非参数化方差分析 (ANOVA),以及协方差分析 (ANOCOVA) 和重复测量方差分析 (RANOVA)。

使用多因素方差分析测试多个组。

概率分布和假设检验

拟合数据的概率分布。分析样本间差异是否极大,是否与随机数据变化一致。利用各种分布生成随机数。

概率分布

拟合连续和离散概率分布,使用统计图来评估拟合优度,计算 40 多种不同分布的概率密度函数和累积分布函数。

使用 Distribution Fitter App 以交互方式拟合分布。

随机数生成

利用拟合或构建的概率分布生成伪随机和拟随机数流。

以交互方式生成随机数。

假设检验

为一个样本、成对样本或独立样本执行 t 检验、分布检验(Chi-square、Jarque-Bera、Lilliefors 和 Kolmogorov-Smirnov0)和非参数检验。检验自动校正和随机性,比较分布(双样本 Kolmogorov-Smirnov)。

单边 t 检验中的拒绝区域。

工业统计

统计分析影响和数据趋势。应用工业统计方法,例如自定义的实验设计和统计过程控制。

实验设计 (DOE)

定义、分析和直观显示自定义的实验设计 (DOE)。创建并测试如何先后处理数据输入的具体计划,以生成其对数据输出所产生影响的相关信息。

应用 Box-Behnken 设计,以生成更高阶的响应面。

统计过程控制 (SPC)

通过评估流程可变性来监控和改进产品或流程。创建控制图,评估流程功能,以及执行计量可重复性和可再现性研究。

使用控制图监视制造流程。

可靠性和生存分析

通过执行 Cox 比例风险回归和拟合分布,对有审查和无审查的故障时间数据进行可视化和分析。计算经验风险、残存、累积分布函数以及核密度估算。

作为“已审查”值示例的故障数据。

扩展到大数据和云

对超出内存的数据应用统计和机器学习技术。加快针对集群和云实例的统计计算和机器学习模型训练速度。

使用 Tall 数组分析大数据

将 Tall 数组和表与许多分类、回归和聚类算法结合使用,对无法存入内存的数据集训练模型,而无需更改代码。

利用 Parallel Computing Toolbox 或 MATLAB Parallel Server™ 加快计算速度。

云和分布式计算

使用云实例加快统计和机器学习计算速度。在 MATLAB Online™ 中执行完整的机器学习工作流程。

在 Amazon 或 Azure 云实例上执行计算。

部署和代码生成

将统计和机器学习部署到嵌入式系统,使用 C 代码加速计算密集型运算,并与企业系统集成。

代码生成

使用 MATLAB CoderTM 为分类和回归算法、描述性统计和概率分布的推理生成可移植、可读的 C 或 C++ 代码。使用机器学习模型通过 MATLAB 函数块和系统块加快高逼真度仿真的确认和验证速度。

两个部署途径:生成 C 代码或编译 MATLAB 代码。

与应用程序和企业系统集成

使用 MATLAB Compiler™ 将统计和机器学习模型部署为独立程序、MapReduce、Spark™ 应用程序、Web 应用程序以及 Microsoft® Excel® 插件。使用 MATLAB Compiler SDK™,构建 C/C++ 共享库、Microsoft .NET 程序集、Java® 类和 Python® 程序包。

使用 MATLAB Compiler 集成大气质量分类模型。

更新已部署的模型

更新已部署模型的参数,而无需重新生成 C/C++ 预测代码。

代码生成和模型更新工作流程。

最新特性

机器学习器应用

在 Classification Learner 和 Regression Learner 中优化超参数,在 Classification Learner 中指定误分类代价

代码生成

更新已部署的决策树或线性模型且无需重新生成代码,还可以为概率分布函数生成 C/C++ 代码(需要 MATLAB Coder)

代码生成

生成定点 C/C++ 代码,用于预测 SVM 模型(需要 MATLAB Coder 和 Fixed-Point Designer)

谱聚类

spectralcluster 函数执行谱聚类

特征排序

对于数值和分类特征,使用最小冗余最大相关性 (MRMR) 算法按重要性排序;对用于无监督学习特征,基于拉普拉斯得分排序

关于这些特性和相应函数的详细信息,请参阅发行说明

获取免费试用版

30 天探索触手可及。

马上下载

准备购买?

获取详细价格和并探索相关产品。

您是学生吗?

获得 MATLAB 和 Simulink 学生版软件。

了解更多