使用 tall 数组和数据存储的大数据工作流

Workflow for working with tall arrays created from datastores.

该图显示了使用 tall 数组分析大型数据集的典型工作流。在此工作流中，您先分析一小部分数据，然后再扩大规模来分析整个数据集。并行计算可以帮助您从第六步扩展到第七步。也就是说，在检查您的代码在小数据集上运行后，再在整个数据集上运行它。您可以使用 MATLAB^® 来增强此工作流。

问题	解决方案	必需产品	更多信息
您的数据是不是太大了？	要处理具有任意行数的内存不足数据，请使用 tall 数组。此工作流非常适合数据分析和机器学习。	MATLAB	使用 tall 数组处理无法放入内存的数据
	在本地计算机上并行使用 tall 数组。	MATLAB Parallel Computing Toolbox™	在并行池上使用 tall 数组
	在您的集群上并行使用 tall 数组。	MATLAB Parallel Computing Toolbox MATLAB Parallel Server™	要在 Hadoop^® 集群上使用 tall 数组，请参阅在 Spark 集群上使用 tall 数组。对于所有其他类型的集群，使用非本地集群配置文件来设置并行池。有关示例，请参阅在并行池上使用 tall 数组
	如果您的数据在多个维度上都很大，请改用 `distributed`。	MATLAB Parallel Computing Toolbox MATLAB Parallel Server	将数组分发给并行工作单元

并行运行 tall 数组

Parallel Computing Toolbox 可以充分利用多核计算机的处理能力，通过并行工作单元池执行应用程序，立即加快您的 tall 数组计算速度。如果您已经安装了 Parallel Computing Toolbox，那么您可能不需要做任何特殊的事情来利用这些功能。有关将 tall 数组与 Parallel Computing Toolbox 结合使用的详细信息，请参阅在并行池上使用 tall 数组。

使用 `mapreducer` 控制代码运行的位置

执行 tall 数组时，默认执行环境使用本地 MATLAB 会话，或者本地并行池（如果有 Parallel Computing Toolbox）。默认池使用本地工作单元，通常计算机上的每个核都有一个工作单元。使用 mapreducer 函数更改 tall 数组的执行环境以使用不同的集群。

使用 tall 数组开发算法的好处之一是您只需编写一次代码。您可以在本地开发代码，然后使用 mapreducer 进行扩展并利用 Parallel Computing Toolbox 和 MATLAB Parallel Server 提供的功能。

另请参阅

gather | tall | datastore | mapreducer

使用 tall 数组和数据存储的大数据工作流

并行运行 tall 数组

使用 mapreducer 控制代码运行的位置

另请参阅

主题

使用 `mapreducer` 控制代码运行的位置