我有一个mapreduce作业,文件输入路径为:/basedirectory/*/*.txt
在基本目录中,我有不同的子文件夹(CaseA,CaseB等),每个子文件夹都包含hdfs文本文件。
在工作的地图阶段,我想找出数据分片的确切来源(例如CaseA)。我该如何实现?
对于具有多个输入hbase表的mapreduce作业,我已经执行了类似的操作,在其中我使用context.getInputSplit()。getTableName()来查找实际的表名,但不确定要对HDFS输入文件执行什么操作。
答案 0 :(得分:1)
您可以使用context.getInputSplit()
(其中context
是mapper.context
)进行输入分割,然后在.getPath()
上使用inputSplit
方法来返回文件路径。