Main Content

本页采用了机器翻译。点击此处可查看最新英文版本。

使用 Tall 数组和数据存储的大数据工作流

Workflow for working with tall arrays created from datastores.

该图显示了使用 tall 数组分析大型数据集的典型工作流。在此工作流中,您先分析一小部分数据,然后再扩大规模来分析整个数据集。并行计算可以帮助您从第六步扩展到第七步。也就是说,在检查您的代码在小数据集上运行后,再在整个数据集上运行它。您可以使用 MATLAB® 来增强此工作流。

问题解决方案必需产品更多信息
您的数据是不是太大了?

要处理具有任意行数的内存不足数据,请使用 tall 数组。

此工作流非常适合数据分析和机器学习。

MATLAB

使用 tall 数组处理无法放入内存的数据

在本地机器上并行使用 tall 数组。

MATLAB

Parallel Computing Toolbox™

在并行池上使用 Tall 数组

在您的集群上并行使用 tall 数组。

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server™

要在 Hadoop 集群上使用 tall 数组,请参阅 在 Spark 集群上使用 Tall 数组

对于所有其他类型的集群,使用非本地集群配置文件来设置并行池。有关示例,请参阅 在并行池上使用 Tall 数组

如果您的数据在多个维度上都很大,请改用 distributed

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server

将数组分发给并行工作进程

并行运行 tall 数组

Parallel Computing Toolbox 可以充分利用多核计算机的处理能力,通过并行工作进程池执行应用程序,立即加快您的 tall 数组计算速度。如果您已经安装了 Parallel Computing Toolbox,那么您可能不需要做任何特殊的事情来利用这些功能。有关将 tall 数组与 Parallel Computing Toolbox 结合使用的详细信息,请参阅 在并行池上使用 Tall 数组

使用 mapreducer 控制代码运行的位置

执行 tall 数组时,默认执行环境使用本地 MATLAB 会话,或者本地并行池(如果有 Parallel Computing Toolbox)。默认池使用本地工作进程,通常机器上的每个核心都有一个工作进程。使用 mapreducer 函数更改 tall 数组的执行环境以使用不同的集群。

使用 tall 数组开发算法的好处之一是您只需编写一次代码。您可以在本地开发代码,然后使用 mapreducer 进行扩展并利用 Parallel Computing Toolbox 和 MATLAB Parallel Server 提供的功能。

另请参阅

| | |

相关示例

详细信息