Main Content

本页采用了机器翻译。点击此处可查看英文原文。

tall 数组和 mapreduce

使用 MATLAB® tall 数组和数据存储或 mapreduce 在 Spark™ 和 Hadoop® 集群上以及使用并行池并行分析大数据集

您可以使用 Parallel Computing Toolbox™ 通过桌面上的并行池并行计算 tall 数组表达式。通过使用 tall 数组,您可以运行机器内存无法容纳的大数据应用程序。您还可以使用 Parallel Computing Toolbox 通过连接到 MATLAB Parallel Server™ 集群上运行的并行池来扩展 tall 数组的处理。或者,您可以使用启用了 Spark 且运行 MATLAB Parallel Server 的 Hadoop 集群。有关详细信息,请参阅使用 Tall 数组和数据存储的大数据工作流

函数

全部展开

tall创建 tall 数组
datastore为大型数据集合创建数据存储
mapreduce用于分析无法载入内存的数据集的编程方法
mapreducer为 mapreduce 和 tall 数组定义并行执行环境
partition划分数据存储
numpartitions数据存储分区数

全部展开

parallel.Pool工作进程并行池
parallel.cluster.Hadoop用于 mapreducer、mapreduce 和 tall 数组的 Hadoop 集群
parallel.cluster.SparkSpark 集群用于 mapreducer、mapreduce 和 tall 数组 (自 R2022b 起)

示例和操作指南

概念