猪本地vs mapreduce模式性能比较

时间:2014-05-12 20:48:50

标签: hadoop mapreduce apache-pig

我已经使用Cloudera manager CDH4设置了一个3节点Hadoop集群。在mapreduce模式下运行Pig作业时,它花费的时间是同一数据集的本地模式的两倍。这是预期的行为吗? 还有任何文档可用于mapreduce作业的性能调整选项吗?

非常感谢您的帮助!

3 个答案:

答案 0 :(得分:1)

这可能是因为您使用的是玩具数据集,而mapreduce的开销大于并行化的好处

答案 1 :(得分:0)

性能调优的良好开端是来自" Programming Pig"的"Making Pig Fly"章节。书。

答案 2 :(得分:0)

另一个原因是当你在-x本地模式下运行时,Pig不会像map reduce模式那样执行相同的jar编译。使用小数据集和复杂的pig脚本,实际的jar编译时间变得明显。