我需要在MR中处理一些数据并将其加载到与我的MR节点位于同一物理机器上的外部系统中。现在我运行该作业并从HDFS读取输出并将各个记录重新路由到所需的节点。
是否可以定义一些映射,使得带有键X的记录总是直接到达所需的节点Y?简单地说,我想控制hadoop路由后排序分区组的位置。
答案 0 :(得分:0)
不容易。我所知道的唯一影响动态数据块物理位置的方法是实现自定义BlockPlacementPolicy
。我只是为你的用例抛出一些想法。
BlockPlacementPolicy
可以根据文件名路由块MultipleOutputs
修改分区的文件名
Partitioner
看起来你可以得到你正在寻找的结果,但它不会很漂亮。