Main Content

MapReduce

用于分析无法载入内存的数据集的编程方法

mapreduce 是一种编程方法,适用于分析无法以其他方法载入计算机内存的大型数据集。该方法使用 datastore,以小分块的方式处理数据,包含映射阶段(用于对数据进行格式化或执行前兆计算)和化简阶段(用于对来自映射阶段的所有结果进行聚合)。有关详细信息,请参阅MapReduce 快速入门

有关将其他产品与 mapreduce 结合使用的信息,请参阅Speed Up and Deploy MapReduce Using Other Products

函数

全部展开

mapreduce用于分析无法载入内存的数据集的编程方法
datastore为大型数据集合创建数据存储
add向 KeyValueStore 中添加单个键-值对组
addmulti向 KeyValueStore 中添加多个键-值对组
hasnext确定 ValueIterator 是否具有一个或多个可用值
getnext从 ValueIterator 获取下一个值
mapreducer为 mapreduce 或 tall 数组定义执行环境
gcmr获取当前的 mapreducer 配置

对象

KeyValueStore存储用于 mapreduce 的键-值对组
ValueIterator用于 mapreduce 的中间值迭代器

主题

疑难解答

Debug MapReduce Algorithms

This example shows how to debug mapreduce algorithms in MATLAB®. Debugging enables you to follow the movement of data between the different phases of mapreduce execution and inspect the state of all intermediate variables.