Hadoop地图类中的当前hdfs位置

时间:2016-12-02 11:38:56

标签: hadoop hadoop2

我有一个场景,我有一个HDFS位置列表,它将在一个MR作业中处理,一些数据集可以存在于多个位置。 例如:

Data set Id: dataset1, dataset2, dataset3.
HDFLocation1[dataset1,dataset2] (means this file have data for dataset1 and dataset2)
HDFLocation2[dataset1,dataset3]

我有下面的地图,其中有hdfs位置需要处理给数据集。

[dataset1:HDFLoca1] 
[dataset2:HDFLoca2]
[dataset3:HDFLoca2]

我正在考虑实现以下逻辑:

在Map方法

  1. 获取数据集ID(例如:dataset1)
  2. 获取当前HDFS位置
  3. 使用提供的地图检查其所需位置
  4. 根据步骤3跳过或处理数据。
  5. 我见过How to get the input file name in the mapper in a Hadoop program?但这不适用于我使用的Clodera版本(Hadoop-core-2.5.1,CDH-5.3.1)。

0 个答案:

没有答案