Question

在作业开始之前，猪脚本（并不比我建造的任何其他人复杂得多）似乎在很长一段时间内循环使用：

2013-10-08 10:46:07,655 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:07,659 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:16,303 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10

当通常这个步骤在几秒钟内完成时，它重复上述约4分钟。我无法确定原因 - 除了删除部分脚本，但问题似乎不是由脚本的任何特定部分引起的。我有其他脚本这个复杂，我没有遇到这个问题。可能导致这个问题的原因是什么？

Answer 1

如果没有更多信息，我无法确定，但看起来猪正在等待群集的JobTracker开始运行脚本生成的基础Map / Reduce作业。有很多原因导致这种情况发生，例如在资源耗尽的共享集群上运行。您很可能必须查看群集的JobTracker和/或TaskTrackers以了解确切原因。

不同寻常的猪工作开始时间

1 个答案: