如果我在输入hdfs路径中将*
指定为/user/analytics/batch_jobs/2016-06-09/*/BATCH*/
,则Mapper作业处理的记录数是两倍。
但是,如果我将/user/analytics/batch_jobs/2016-06-09/*/BATCH*/*
复制到hdfs中的/ user / tmp /,则行为正常,每条记录只处理一次。
hadoop fs -cat /user/analytics/batch_jobs/2016-06-09/*/BATCH*/* | wc -l
并且hadoop fs -cat /user/tmp/test.dat | wc -l
显示相同数量的记录。
在我的hdfs输入路径中使用*有什么问题?