应用错误收集

我有一个场景，我有一个HDFS位置列表，它将在一个MR作业中处理，一些数据集可以存在于多个位置。例如：

Data set Id: dataset1, dataset2, dataset3.
HDFLocation1[dataset1,dataset2] (means this file have data for dataset1 and dataset2)
HDFLocation2[dataset1,dataset3]

我有下面的地图，其中有hdfs位置需要处理给数据集。

[dataset1:HDFLoca1] 
[dataset2:HDFLoca2]
[dataset3:HDFLoca2]

我正在考虑实现以下逻辑：

在Map方法

中

获取数据集ID（例如：dataset1）
获取当前HDFS位置
使用提供的地图检查其所需位置
根据步骤3跳过或处理数据。

我见过How to get the input file name in the mapper in a Hadoop program?但这不适用于我使用的Clodera版本（Hadoop-core-2.5.1，CDH-5.3.1）。

Hadoop地图类中的当前hdfs位置

0 个答案: