在作业开始之前,猪脚本(并不比我建造的任何其他人复杂得多)似乎在很长一段时间内循环使用:
2013-10-08 10:46:07,655 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:07,659 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:16,303 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
当通常这个步骤在几秒钟内完成时,它重复上述约4分钟。我无法确定原因 - 除了删除部分脚本,但问题似乎不是由脚本的任何特定部分引起的。我有其他脚本这个复杂,我没有遇到这个问题。可能导致这个问题的原因是什么?
答案 0 :(得分:1)
如果没有更多信息,我无法确定,但看起来猪正在等待群集的JobTracker开始运行脚本生成的基础Map / Reduce作业。有很多原因导致这种情况发生,例如在资源耗尽的共享集群上运行。您很可能必须查看群集的JobTracker和/或TaskTrackers以了解确切原因。