如何在Mapreduce作业的Mapper中获取数据分片的文件路径?

时间:2019-03-23 22:20:00

标签: java mapreduce hadoop2

我有一个mapreduce作业,文件输入路径为:/basedirectory/*/*.txt

在基本目录中,我有不同的子文件夹(CaseA,CaseB等),每个子文件夹都包含hdfs文本文件。

在工作的地图阶段,我想找出数据分片的确切来源(例如CaseA)。我该如何实现?

对于具有多个输入hbase表的mapreduce作业,我已经执行了类似的操作,在其中我使用context.getInputSplit()。getTableName()来查找实际的表名,但不确定要对HDFS输入文件执行什么操作。

1 个答案:

答案 0 :(得分:1)

您可以使用context.getInputSplit()(其中contextmapper.context)进行输入分割,然后在.getPath()上使用inputSplit方法来返回文件路径。