标签: hadoop mapreduce
由于我的mapreduce作业,我有几个带整数PK的表。为了避免在加入此表时节点之间的数据传输,我希望通过PK在节点上分配记录。
我发现,我可以创建自定义分区程序,但它定义了记录的任务ID,具有相同ID的任务可以在不同作业运行的不同节点上运行。那么如何为记录键设置某个节点呢?