标签: mapreduce partitioning
我编写了自定义分区程序来分区数据集。我想使用相同的分区器对两个数据集进行分区,然后在下一个mapreduce作业中,我希望每个映射器处理来自两个源的相同分区并执行一些功能,例如连接等。我如何确保一个映射器获取拆分对应来自两个源的同一分区?
任何帮助都将受到高度赞赏。
答案 0 :(得分:0)
您所描述的是地图侧连接的一种变体。 Pro Hadoop的第8章或org.apache.hadoop.mapred.join