为什么mapreduce中的group by operations被认为是昂贵的?

时间:2015-07-18 16:00:00

标签: hadoop mapreduce

任何人都可以向我解释如何映射作业并减少hadoop,以及为什么按操作分组会被认为是昂贵的?

2 个答案:

答案 0 :(得分:0)

我不会说真的很贵。但是我会使用它确实会影响性能的一个词,因为订购或排序订购记录所需的处理要多得多。当数百万或数十亿条记录被分类时,比较器和分区器对数据的处理将是巨大的。

我希望我能回答你的问题。

答案 1 :(得分:0)

Hadoop的性能受两个主要因素的影响:

1-处理:处理地图和减少群集节点上的任务所花费的执行时间。

2-通信:改组数据,有些操作需要将数据从一个节点发送到另一个节点进行处理(如全局排序)。

Groupby需要复杂性需求会影响这两个因素。在随机播放中,一半的数据大小可能会在节点之间进行混洗。