任何人都可以向我解释如何映射作业并减少hadoop,以及为什么按操作分组会被认为是昂贵的?
答案 0 :(得分:0)
我不会说真的很贵。但是我会使用它确实会影响性能的一个词,因为订购或排序订购记录所需的处理要多得多。当数百万或数十亿条记录被分类时,比较器和分区器对数据的处理将是巨大的。
我希望我能回答你的问题。
答案 1 :(得分:0)
Hadoop的性能受两个主要因素的影响:
1-处理:处理地图和减少群集节点上的任务所花费的执行时间。
2-通信:改组数据,有些操作需要将数据从一个节点发送到另一个节点进行处理(如全局排序)。
Groupby需要复杂性需求会影响这两个因素。在随机播放中,一半的数据大小可能会在节点之间进行混洗。