通过 MATLAB 处理大数据

使用 MATLAB 处理大数据

探查和分析大数据并基于大数据开发预测模型

MATLAB 可通过访问和集成您现有的大数据存储来简化大数据的处理,并根据可用资源满足您的数据处理需求。

使用 MATLAB,您能够:

  • 访问各种存储中的大数据,例如传统文件系统、基于云的存储(AWS® S3、Azure® Blob)、SQL 和 NoSQL 数据库以及数据平台
  • 清洗和分析较小的采样数据并基于该数据开发机器学习模型
  • 扩展代码并对大数据应用相同的代码,而无需重写您的算法
  • 从本地机器、传统 HPC 集群、Spark™ 集群和云数据平台,使用根据您的需求量身定制的处理能力

“借助 MATLAB 的高性能计算,我们能够处理以前未分析的大数据。我们运用所学的知识了解人类活动对生态系统的健康造成的影响,以就人类在海洋中和陆地上的行为做出负责任的决策。”

访问数据

您可以使用 MATLAB 从大量文件、数据库、数据平台和云存储系统中读取数据。通过 MATLAB 中的数据存储,您可以访问无法放入单台计算机内存的数据或分布在多个文件中的数据。这些数据存储支持各种文件格式(CSV、Parquet、MDF 等)和存储系统(AWS S3、Azure Blob、HDFS、数据库、数据平台)。您还可以为自定义文件格式创建您自己的数据存储。

示意图显示,您可以从 CSV、Parquet、电子表格、数据库、Databricks、Domino 和 Cloudera 以及 AWS、Azure 等云存储访问数据。
清洗、准备、探查和分析大数据并基于大数据开发机器学习模型的函数列表。

探查、清洗和变换以及开发预测模型

借助 MATLAB,您可以对大数据高效地执行数据分析和数据工程。MATLAB 支持对 Parquet 文件执行谓词下推,以便于您可以从源头过滤大数据。在读取后,您可以变换和组合来自不同数据存储的数据,以进行预处理和数据工程。

MATLAB tall 数组使用延迟评估框架,让您无需重写即可对大数据运行内存中的基于时间表的代码。tall 数组支持数百个数据操作、数学、统计和机器学习函数,可用于对大数据进行简单的统计分析或基于大数据开发预测模型。

在您的大数据 IT 基础架构上集成和运行

MATLAB 可以通过将大数据与您的现有基础架构集成,帮助您高效地处理大数据。您可以使用并行处理以及在部署的生产模式下以交互方式扩展和运行您的 MATLAB 代码。您可以在流式和批处理应用中部署分析,而无需支付版权费。此外,您还可以在不同云数据平台(如 Databricks、Domino Data Lab 和 Google® BigQuery)上对大数据运行 MATLAB 代码和模型。

示意图显示一个人正在 Databricks、Domino、AWS、Azure 和其他大数据系统上运行 MATLAB 代码。