Mapreduce - 确认文件是否分裂的正确方法

时间:2015-12-03 05:12:35

标签: hadoop mapreduce

我们有很多xml文件,我们希望使用一个mapper任务处理一个xml,因为有明显的理由使处理(解析)更简单。

我们写了一个mapreduce程序,通过重写输入格式类的isSplitable方法来实现它。它似乎工作正常。

但是,我们想确认是否使用一个映射器来处理一个xml文件。有没有办法通过查看驱动程序或其他任何方式生成的日志来确认。

由于

2 个答案:

答案 0 :(得分:0)

要回答您的问题,请检查映射计数。 它应该等于您输入文件的数量。

示例:

/ds/input 
    /file1.xml
    /file2.xml
    /file3.xml 

然后映射器计数应为3.

答案 1 :(得分:0)

这是命令。

 mapred job -counter job_1449114544347_0001 org.apache.hadoop.mapreduce.JobCounter TOTAL_LAUNCHED_MAPS

您可以使用mapred job -counter命令获取许多详细信息。您可以查看此playlist中的视频54和55。它详细介绍了计数器。