使用 Tall 数组和数据存储的大数据工作流
该图显示了使用 tall 数组分析大型数据集的典型工作流。在此工作流中,您先分析一小部分数据,然后再扩大规模来分析整个数据集。并行计算可以帮助您从第六步扩展到第七步。也就是说,在检查您的代码在小数据集上运行后,再在整个数据集上运行它。您可以使用 MATLAB® 来增强此工作流。
问题 | 解决方案 | 必需产品 | 更多信息 |
---|---|---|---|
您的数据是不是太大了? | 要处理具有任意行数的内存不足数据,请使用 tall 数组。 此工作流非常适合数据分析和机器学习。 | MATLAB | |
在本地机器上并行使用 tall 数组。 | MATLAB Parallel Computing Toolbox™ | ||
在您的集群上并行使用 tall 数组。 | MATLAB Parallel Computing Toolbox MATLAB Parallel Server™ | 要在 Hadoop 集群上使用 tall 数组,请参阅 在 Spark 集群上使用 Tall 数组 对于所有其他类型的集群,使用非本地集群配置文件来设置并行池。有关示例,请参阅 在并行池上使用 Tall 数组 | |
如果您的数据在多个维度上都很大,请改用 | MATLAB Parallel Computing Toolbox MATLAB Parallel Server |
并行运行 tall 数组
Parallel Computing Toolbox 可以充分利用多核计算机的处理能力,通过并行工作进程池执行应用程序,立即加快您的 tall 数组计算速度。如果您已经安装了 Parallel Computing Toolbox,那么您可能不需要做任何特殊的事情来利用这些功能。有关将 tall 数组与 Parallel Computing Toolbox 结合使用的详细信息,请参阅 在并行池上使用 Tall 数组。
使用 mapreducer
控制代码运行的位置
执行 tall 数组时,默认执行环境使用本地 MATLAB 会话,或者本地并行池(如果有 Parallel Computing Toolbox)。默认池使用本地工作进程,通常机器上的每个核心都有一个工作进程。使用 mapreducer
函数更改 tall 数组的执行环境以使用不同的集群。
使用 tall 数组开发算法的好处之一是您只需编写一次代码。您可以在本地开发代码,然后使用 mapreducer
进行扩展并利用 Parallel Computing Toolbox 和 MATLAB Parallel Server 提供的功能。
另请参阅
gather
| tall
| datastore
| mapreducer