mapreduce
用于分析无法载入内存的数据集的编程方法
语法
说明
示例
输入参数
名称-值参数
输出参量
提示
调试您的
mapreduce
算法以检查键-值对组如何通过不同的阶段,这很有用。要检查数据的移动,请在 map 和 reduce 函数中设置断点。mapreduce
的断点停止执行,使您能够检查相关变量的当前状态,例如KeyValueStore
或ValueIterator
。有关详细信息,请参阅Debug MapReduce Algorithms。一些可在任意平台上优化
mapreduce
性能的建议有:最大限度减少对 map 函数的调用次数。最简单的方法是增大输入数据存储的
ReadSize
属性的值。这样,mapreduce
将较大的数据块传递到 map 函数,降低读取次数,减少数据存储。减少在 map 和 reduce 函数间发送的中间数据量。一种方法是使用 map 函数内的
unique
来组合相似键。请参阅Compute Mean by Group Using MapReduce中有关此方法的示例。
扩展功能
版本历史记录
在 R2014b 中推出