关于预测分析

您需要了解的三件事

预测分析使用历史数据预测未来事件。通常,历史数据用于构建数学模型以获取重要趋势。该预测模型随后会对当前数据进行分析,以预测接下来将要发生的事件,或者提供实现最佳结果所需的行动建议。

由于辅助技术在大数据和机器学习等领域的长足进步,预测分析在近年来受到广泛关注。

预测分析的重要性

大数据的兴起

谈起预测分析往往不得不提到大数据。例如,工程数据收集自世界各地的传感器、仪器和连接系统。某个公司的业务系统数据可能包括交易数据、销售业绩、客户投诉和营销信息。越来越多的公司将利用这些宝贵的信息做出数据驱动型决策。

提升竞争力

随着竞争不断加剧,企业都希望在将产品和服务推向竞争激烈的市场时获得优势。数据驱动型预测模型可帮助企业以新方式解决顽疾。

例如,设备制造商会发现很难单独依靠硬件进行创新。产品开发人员可以向现有解决方案中添加预测功能,为客户创造更多价值。在设备维护中使用预测分析或预测性维护可以预见设备故障、预测能耗需求,减少运行成本。例如,测量汽车部件振动的传感器可在汽车抛锚前发出维护需求信号。

企业还可以使用预测分析实现更加准确的预测,如预测电网的用电需求。这些预测可以让资源规划(例如,各类发电厂的调度)更加高效。

面向大数据和机器学习的尖端技术

为了从大数据中获取价值,企业会使用Hadoop和Spark等工具在大数据集中运行应用算法。数据源可包含交易数据库、设备日志文件、图片、视频、音频、传感器数据或其他类型的数据。创新往往需要合并来自若干数据源的数据。

获得这些数据后,必须使用工具获取洞察力和趋势。机器学习技术将用于发现数据中的模式,并构建可预测未来结果的模型。目前,有多种机器学习算法可供使用,包括线性和非线性回归、神经网络、支持向量机、决策树和其他算法。

预测分析实例

预测分析可为金融、医疗保健、制药、汽车、航空和制造业等行业中的团队提供帮助。

  • 汽车 ——自动驾驶开辟了新天地
    开发驾驶员辅助技术和自动驾驶技术的公司使用预测分析对联网车辆返回的传感器数据进行分析,并生成驾驶员辅助算法。
  • 航空 ——监控航空发动机的运行状况
    为提高飞行器的正常运行时间和减少维护成本,发动机制造商研发出实时分析应用程序,用于预测燃油、燃料、发射、机械部件运行状况和控制部件的子系统性能。
  • 能源生产 ——预测电价和需求
    精密预测应用程序可使用模型监控工厂可用性、历史趋势、季节性和天气。
  • 金融服务 ——创建信用风险模型
    金融机构使用机器学习技术和定量工具预测信贷风险。
  • 工业自动化和机械制造 ——预测机器故障
    塑料和薄膜生产商使用健康监控和预测性维护应用程序最大程度减少停机时间和废料产生,每月可节省50,000欧元。
  • 医疗设备 ——使用模式检测算法发现哮喘和慢性阻塞性肺病(COPD)
    哮喘管理设备可记录和分析患者的呼吸声并通过智能手机应用程序提供即时反馈,帮助患者管理哮喘和COPD。

预测分析的工作原理

预测分析是基于数据并使用数据分析进行预测的过程。此过程使用数据以及分析、统计和机器学习技术创建预测未来事件的预测模型。

“预测分析”的定义是应用统计或机器学习技术创建有关未来的定量预测。有监督的机器学习技术常常用于预测未来值(此机器在需要维修前可运行多长时间?)或评估可能性(此客户有多大可能拖欠贷款?)

预测分析首先需要确定业务目标:通过数据来减少废料、节省时间或削减成本。该过程通常将各种海量数据集变为模型,再利用该模型生成明确的可操作输出,助力业务目标的实现,如减少材料浪费、降低库存,以及生产满足规格要求的产品。

预测分析工作流

我们都很熟悉天气预报的预测模式。预测模型的主要行业应用是关于能源负载预测的能源需求预测。在这种情况下,能源生产商、电网运营商和经销商需要准确预测能源负载,以针对电网负荷管理做出相应决策。有大量数据可供使用,电网运营商使用预测分析可将这些信息转换成可行的洞察力。

预测分析工作流。

预测能源负载的分步工作流

通常,预测分析应用程序的工作流遵循以下基本步骤:

  1. 导入网络归档、数据库和电子表格等不同来源的数据。
    数据源包括包含能源负载数据的CSV文件和显示温度和露点的国家天气数据。
  2. 通过移除异常值和合并数据源来清理数据。
    识别数据峰值、缺失的数据或异常点并将其从数据中移除。然后,将不同的数据源聚合在一起,此时将创建一个包含能源负载、温度和露点的表。
  3. 使用统计、曲线拟合工具或机器学习,基于聚合数据创建准确的预测模型。
    能源预测是一个包含多个可变因素的复杂流程,因此您可以选择使用神经网络构建和训练预测模型。通过训练数据集进行迭代可尝试不同的方法。当训练完成后,您可以根据新数据考察模型的优劣。
  4. 将模型集成到生产环境中的负载预测系统。
    在找到可准确预测负载的模型后,您可以将其迁移到生产系统中,将分析方法用于软件程序或设备,包括网络应用程序、服务器或移动设备。

纽约州用于能源负载预测的预测分析应用程序。

创建预测模型

您的聚合数据解读起来比较复杂。要获取它包含的洞察力,您需要准确的预测模型。

预测模型使用数学和计算方法预测事件或结果。这些模型基于输入值的更改来预测某些未来状态或时间的结果。通过迭代过程,您可以使用训练数据集创建模型,然后对模型进行测试和验证以确认其预测准确性。您可以尝试不同的机器学习方法找到最有效的模型。

示例包括用于预测航空交通量时间序列回归模型,或用于预测燃料效率的发动机速度与负载线性回归模型。

预测分析与规范性分析

成功实现预测分析的组织将规范性分析视为下一个前沿。预测分析可实现对未来事件的评估;规范性分析告诉您在出现某个预测结果后,如何以最佳方式进行应对。

规范性分析是数据分析的一个分支,使用预测模型给出的行动建议以实现最佳成果。规范性分析依赖优化和基于规则的技术进行决策。预测未来24小时内电网的负载需要采用预测分析,而基于此预测确定如何运行电厂则需要采用规范性分析。

有趣的MATLAB预测分析示例

许多公司都在探索新的方式来利用MATLAB® 执行预测分析,从而打造新的产品和服务,并以全新的方式解决长期存在的问题。

以下是预测分析的实际应用示例:

贝克休斯公司使用数据分析和机器学习开发出适用于油气开采设备的预测性维护软件

贝克休斯公司的卡车配有可将水沙混合物注入钻井深处的容积泵。由于容积泵的成本占卡车总成本的7%(卡车成本为150万美元,容积泵成本约为10万美元),贝克休斯公司需要确定容积泵什么时候会出现故障。因此,他们在现场作业的10辆卡车上安装了多个传感器,以50,000/秒的速度收集样本数据,然后对这些近太字节的数据进行处理和分析,并训练了一个神经网络来使用传感器数据预测容积泵故障。该软件有望使维护成本降低30-40%(达1000万美元以上)。

BuildingIQ开发出用于大型建筑暖通空调能耗优化的主动算法

大型商业建筑中的供暖、通风和空调(HVAC)系统往往非常低效,因为气候模式变化、能源成本波动,或是建筑热力性质并没有被考虑在内。Building IQ基于云技术的软件平台采用了高级算法,可连续处理来自功率表、温度计和HVAC压力传感器高达千兆字节的信息。机器学习被用来分割数据,以确定燃气、电力、蒸汽和太阳能对于供暖和制冷过程的相对效用。经过优化,还可确定每个建筑每天供暖和制冷的最佳安排。Building IQ平台可使大型商业建筑的暖通空调能耗在正常运行期间降低10-25%。

开发检测算法减少重症监护室中的假警报

心电图仪和其他患者监控设备发出的假警报是困扰重症监护室(ICU)的一个严重问题。假警报发出的噪音会干扰患者的睡眠,而且频繁的假警报还会降低医护人员对真警报的敏感度。来自PhysioNet/Computing in Cardiology Challenge的挑战者们一直致力于开发新的算法,目的是区分ICU监控设备所记录的信号中的真警报和假警报。捷克科学院的科研人员以MATLAB算法在该比赛的实时类别中拔得头筹,这些算法可用于检测QRS波群、区分正常心跳和心室心跳,以及排除心脏起搏器刺激引起的假性QRS波群,其生成的真正率(TPR)和真负率(TNR)分别为92%和88%。

预测分析与MATLAB

为发挥商业和工程数据的价值并做出明智决策,越来越多的预测分析应用程序开发团队转为使用MATLAB。

使用MATLAB工具和功能,您可以通过工程、科学和现场数据,以及业务和交易数据执行预测分析。通过MATLAB,您可以向大型生产系统和嵌入式系统部署预测应用程序。

用于预测分析的MATLAB。

为什么使用MATLAB进行预测分析?

  1. MATLAB分析适用于商业和工程数据。
    MATLAB支持传感器、图像、视频、遥测、二进制和其他实时格式。将MATLAB Tall数组用于Hadoop和Spark,并将接口连接到ODBC/JDBC数据库,即可发掘数据的潜在价值。
  2. MATLAB让工程师自己执行数据科学研究。
    领域专家可通过MATLAB进行数据科学研究,强大的工具可帮助他们执行机器学习、深度学习、统计、优化、信号分析和图像处理。
  3. MATLAB分析在嵌入式系统中运行。
    通过MATLAB代码编写可移植的C和C++代码,研发人员可开发在嵌入式平台上运行的分析方法。
  4. 部署到企业IT系统的MATLAB分析方法。
    MATLAB通过免费的可部署运行时集成到企业系统、集群和云。

数据 + MATLAB = 通过预测分析实现成功

在此简化视图中,工程数据收集自世界各地分布的传感器、仪器和连接系统。这些数据在内部或云端的文件系统中收集和存储。

工程驱动分析的体系架构。

“无论我们的客户身处哪个行业,无论需要分析哪种数据(文字、音频、图像或视频),MATLAB代码都能够使我们更快速地提供明确的结果。”

Cognizant公司G. Subrahamanya VRK Roo博士

此数据将与来自传统业务系统的数据(如成本数据、销售业绩、客户投诉和营销信息)合并。

此后,工程师或领域专家将使用MATLAB开发分析方法。预处理几乎是必不可少的环节,用于处理数据缺失、异常值或其他无法预见的数据质量问题。接下来,将使用统计和机器学习等分析方法生成“分析”—— 您系统的预测模型。

为了使用该预测模型,必须将其部署到可提供实时交易数据的生产IT环境、电子商务网站等IT系统,或者传感器、控制器或智能系统(如自主车辆)等嵌入式设备。

理想的做法是将MATLABSimulink®应用到此体系架构中,因为这些工具可通过基于模型的设计将预测模型更加方便地部署到嵌入式系统,它们也可以通过应用程序部署产品将预测模型部署到IT系统。

将预测模型部署到嵌入式系统和IT系统。

“MATLAB依靠其稳健的数值算法、广泛的可视化和分析工具、可靠的优化路径、针对面向对象编程的支持,以及使用我们的Java应用程序在云端运行的能力,帮助我们加快研发和部署速度。”

BuildingIQ首席数据科学家BorislavSavkovic

了解有关预测分析的更多内容