在hdfs中指定*时,Hadoop记录被多次处理

时间:2016-06-21 16:37:11

标签: hadoop mapreduce hdfs yarn

如果我在输入hdfs路径中将*指定为/user/analytics/batch_jobs/2016-06-09/*/BATCH*/,则Mapper作业处理的记录数是两倍。

但是,如果我将/user/analytics/batch_jobs/2016-06-09/*/BATCH*/*复制到hdfs中的/ user / tmp /,则行为正常,每条记录只处理一次。

hadoop fs -cat /user/analytics/batch_jobs/2016-06-09/*/BATCH*/* | wc -l 并且hadoop fs -cat /user/tmp/test.dat | wc -l显示相同数量的记录。

在我的hdfs输入路径中使用*有什么问题?

0 个答案:

没有答案