映射器输出密钥可以路由到Hadoop MR中的特定节点

时间:2014-12-11 13:30:19

标签: hadoop mapreduce

我需要在MR中处理一些数据并将其加载到与我的MR节点位于同一物理机器上的外部系统中。现在我运行该作业并从HDFS读取输出并将各个记录重新路由到所需的节点。

是否可以定义一些映射,使得带有键X的记录总是直接到达所需的节点Y?简单地说,我想控制hadoop路由后排序分区组的位置。

1 个答案:

答案 0 :(得分:0)

不容易。我所知道的唯一影响动态数据块物理位置的方法是实现自定义BlockPlacementPolicy。我只是为你的用例抛出一些想法。

  • 自定义BlockPlacementPolicy可以根据文件名路由块
  • 可以使用MapReduce
  • 中的MultipleOutputs修改分区的文件名
  • 可以使用自定义Partitioner
  • 将密钥路由到特定分区

看起来你可以得到你正在寻找的结果,但它不会很漂亮。