标签: hadoop group-by mapreduce shuffle hadoop-partitioning
我认为术语 shuffle 是指在序列[1]中随机重新排序元素。因此,我第一次看到MapReduce中的混乱时,我认为它试图将工作负载统一分配到节点以实现负载均衡。然而,在阅读细节之后,我意识到它并不是我想象的那样。它不是随机的,更像是SQL中的group by。
group by
那么使用术语改组的动机是什么?由于我是MapReduce的新手,因此我很可能错过了一些东西。我全都耳朵。