Parititioned Data Map / Reduce

时间:2010-07-03 16:31:09

标签: mapreduce partitioning

我编写了自定义分区程序来分区数据集。我想使用相同的分区器对两个数据集进行分区,然后在下一个mapreduce作业中,我希望每个映射器处理来自两个源的相同分区并执行一些功能,例如连接等。我如何确保一个映射器获取拆分对应来自两个源的同一分区?

任何帮助都将受到高度赞赏。

1 个答案:

答案 0 :(得分:0)

您所描述的是地图侧连接的一种变体。 Pro Hadoop的第8章或org.apache.hadoop.mapred.join