Pig:Slow Group By运营商

时间:2013-08-18 11:16:23

标签: hadoop apache-pig

在对Hive和Pig进行基准测试后,我发现Pig中的Group By运算符比Hive的速度慢得多。我想知道是否有人经历过同样的事情?人们是否有任何改善此操作性能的技巧? (按照之前的帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用了LZO压缩的基准测试。)

1 个答案:

答案 0 :(得分:0)

看来你的看法是错误的。分组通过以某种方式对数据进行分组,事后你做的非常重要。在尝试分析Pig中的性能时,您应该牢记这些事情:

1)可以将多个语句合并到一个MR作业中,因此不要查看语句,查看生成的MR作业的性能。

2)应该有一个表现出剧烈差异的原因。这可能是:

2.1不同的输入格式,其他情况下对Pig和Hive进行基准测试。

2.2由于某种原因,组合器被禁用: http://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used 在大多数情况下,这恰好是我的瓶颈。

根据我的经验,猪/蜂巢的表现并没有太大差异。