我的hadoop工作252小时后死亡(任务然后被杀)

时间:2013-09-10 21:47:33

标签: hadoop

我完成了81,068项任务,但随后11,799项失败,只有12项被杀。他们看到所有人都失败了

2013-09-10 03:07:36,316 INFO org.apache.hadoop.mapred.TaskInProgress: Error from  attempt_201308301539_0002_m_083001_0: Error initializing attempt_201308301539_0002_m_083001_0:
org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find taskTracker/jobcache/job_201308301539_0002/work in any of the configured local directories
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathToRead(LocalDirAllocator.java:389)
    at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathToRead(LocalDirAllocator.java:138)
    at org.apache.hadoop.mapred.TaskTracker$TaskInProgress.localizeTask(TaskTracker.java:1817)
    at org.apache.hadoop.mapred.TaskTracker$TaskInProgress.launchTask(TaskTracker.java:1933)
    at org.apache.hadoop.mapred.TaskTracker.launchTaskForJob(TaskTracker.java:830)
    at org.apache.hadoop.mapred.TaskTracker.localizeJob(TaskTracker.java:824)
    at org.apache.hadoop.mapred.TaskTracker.startNewTask(TaskTracker.java:1664)
    at org.apache.hadoop.mapred.TaskTracker.access$1200(TaskTracker.java:97)
    at org.apache.hadoop.mapred.TaskTracker$TaskLauncher.run(TaskTracker.java:1629)

此时,我正在寻找有关如何在再次重新运行之前对其进行调试的指导。出于某种原因,在群集中,看起来所有文件都被删除了虽然我认为hadoop M / R只删除了成功的任务日志????

任何人对如何进一步调试都有一些建议/想法?

看起来map / reduce的所有默认目录都用于我的hduser的... / tmp / hadoop-hduser。

我在/ etc / hosts上看过东西但是我不明白为什么81,000个任务在最终失败之前成功了?

我正在使用网络界面来获取一些此类信息以及一些日志,其中hadoopinstalled / logs

感谢, 迪安

0 个答案:

没有答案