mapreduce
用于分析无法载入内存的数据集的编程方法
语法
说明
使用前面的任何语法指定具有一个或多个 outds
= mapreduce(___,Name,Value
)Name,Value
对组参数的其他选项。例如,可以指定 'OutputFolder'
,后跟指定输出文件夹的路径的字符向量。
示例
输入参数
输出参数
提示
调试您的
mapreduce
算法以检查键-值对组如何通过不同的阶段,这很有用。要检查数据的移动,请在 map 和 reduce 函数中设置断点。mapreduce
的断点停止执行,使您能够检查相关变量的当前状态,例如KeyValueStore
或ValueIterator
。有关详细信息,请参阅Debug MapReduce Algorithms。一些可在任意平台上优化
mapreduce
性能的建议有:最大限度减少对 map 函数的调用次数。最简单的方法是增大输入数据存储的
ReadSize
属性的值。这样,mapreduce
将较大的数据块传递到 map 函数,降低读取次数,减少数据存储。减少在 map 和 reduce 函数间发送的中间数据量。一种方法是使用 map 函数内的
unique
来组合相似键。请参阅Compute Mean by Group Using MapReduce中有关此方法的示例。
扩展功能
版本历史记录
在 R2014b 中推出