tall 数组和 `mapreduce`

使用 MATLAB^® tall 数组和数据存储或 mapreduce 在 Spark™ 和 Hadoop^® 集群上以及使用并行池并行分析大数据集

您可以使用 Parallel Computing Toolbox™ 通过桌面上的并行池并行计算 tall 数组表达式。通过使用 tall 数组，您可以运行计算机内存无法容纳的大数据应用程序。您还可以使用 Parallel Computing Toolbox 通过连接到 MATLAB Parallel Server™ 集群上运行的并行池来扩展 tall 数组的处理。或者，您可以使用启用了 Spark 且运行 MATLAB Parallel Server 的 Hadoop 集群。有关详细信息，请参阅使用 tall 数组和数据存储的大数据工作流。

函数

全部展开

关键函数

`tall`	创建 tall 数组
`datastore`	为大型数据集合创建数据存储
`mapreduce`	用于分析无法载入内存的数据集的编程方法
`mapreducer`	为 mapreduce 和 tall 数组定义并行执行环境
`partition`	划分数据存储
`numpartitions`	数据存储分区数

类

全部展开

关键类

`parallel.Pool`	工作单元并行池
`parallel.cluster.Hadoop`	用于 mapreducer、mapreduce 和 tall 数组的 Hadoop 集群
`parallel.cluster.Spark`	Spark 集群用于 mapreducer、mapreduce 和 tall 数组 (自 R2022b 起)

示例和操作指南

使用 tall 数组和数据存储的大数据工作流
了解使用 tall 数组分析大数据集的典型工作流。
在并行池上使用 tall 数组
在 Parallel Computing Toolbox 和 MATLAB Parallel Server 中发现 tall 数组。
在云中处理大数据
此示例展示了如何访问云中的大型数据集，并使用 MATLAB® 大数据功能在云集群中对其进行处理。
使用并行计算优化大数据集进行分析
此示例展示如何使用并行计算优化数据预处理以进行分析。 (自 R2024a 起)
在 Spark 集群上使用 tall 数组
在 Spark 集群上创建并使用 tall 表，而无需更改 MATLAB 代码。
在并行池上运行 mapreduce
尝试使用 mapreduce 和 Parallel Computing Toolbox 对大数据进行高级分析。
在 Hadoop 集群上运行 mapreduce
了解 mapreduce 以便在 Hadoop 集群上进行高级大数据分析。
在并行中对数据存储进行分区
使用 partition 将 datastore 分成更小的部分。