tall 数组和 mapreduce
使用 MATLAB® tall 数组和数据存储或
mapreduce
在 Spark™ 和 Hadoop® 集群上以及使用并行池并行分析大数据集您可以使用 Parallel Computing Toolbox™ 通过桌面上的并行池并行计算 tall 数组表达式。通过使用 tall 数组,您可以运行机器内存无法容纳的大数据应用程序。您还可以使用 Parallel Computing Toolbox 通过连接到 MATLAB Parallel Server™ 集群上运行的并行池来扩展 tall 数组的处理。或者,您可以使用启用了 Spark 且运行 MATLAB Parallel Server 的 Hadoop 集群。有关详细信息,请参阅使用 Tall 数组和数据存储的大数据工作流。
函数
类
示例和操作指南
- 使用 Tall 数组和数据存储的大数据工作流
了解使用 tall 数组分析大数据集的典型工作流。
- 在并行池上使用 Tall 数组
在 Parallel Computing Toolbox 和 MATLAB Parallel Server 中发现 tall 数组。
- 在云端处理大数据
此示例展示了如何访问云中的大型数据集,并使用 MATLAB® 大数据功能在云集群中对其进程。
- 使用并行计算优化大数据集进行分析
此示例展示如何使用并行计算优化数据预处理以进行分析。 (自 R2024a 起)
- 在 Spark 集群上使用 Tall 数组
在 Spark 集群上创建并使用 tall 表,而无需更改 MATLAB 代码。
- 在并行池上运行 mapreduce
尝试使用
mapreduce
和 Parallel Computing Toolbox 对大数据进行高级分析。 - 在 Hadoop 集群上运行 mapreduce
了解
mapreduce
以便在 Hadoop 集群上进行高级大数据分析。 - 并行并行数据存储
使用
partition
将datastore
分成更小的部分。
概念
- 在并行池上运行代码
了解如何启动和停止并行池、池大小和集群选择。