我有一个场景,我有一个HDFS位置列表,它将在一个MR作业中处理,一些数据集可以存在于多个位置。 例如:
Data set Id: dataset1, dataset2, dataset3.
HDFLocation1[dataset1,dataset2] (means this file have data for dataset1 and dataset2)
HDFLocation2[dataset1,dataset3]
我有下面的地图,其中有hdfs位置需要处理给数据集。
[dataset1:HDFLoca1]
[dataset2:HDFLoca2]
[dataset3:HDFLoca2]
我正在考虑实现以下逻辑:
在Map方法
中我见过How to get the input file name in the mapper in a Hadoop program?但这不适用于我使用的Clodera版本(Hadoop-core-2.5.1,CDH-5.3.1)。