如何防止由于减少任务失败而导致的hadoop失败作业

时间:2015-10-02 15:34:46

标签: hadoop mapreduce elastic-map-reduce

我在s3distcp版本中运行了AWS EMR hadoop 2.2.0个作业。 3次尝试后,作业保持失败,减速器任务失败。我也试过了两个:

mapred.max.reduce.failures.percent
mapreduce.reduce.failures.maxpercent

为oozie hadoop操作配置和mapred-site.xml 50。但仍然失败了。

以下是日志:

  

2015-10-02 14:42:16,001 INFO [main] org.apache.hadoop.mapreduce.Job:   任务ID:attempt_1443541526464_0115_r_000010_2,状态:FAILED   2015-10-02 14:42:17,005 INFO [main] org.apache.hadoop.mapreduce.Job:   地图100%减少93%2015-10-02 14:42:29,048 INFO [主要]   org.apache.hadoop.mapreduce.Job:地图100%减少98%2015-10-02   15:04:20,369 INFO [main] org.apache.hadoop.mapreduce.Job:map 100%   减少100%2015-10-02 15:04:21,378 INFO [主要]   org.apache.hadoop.mapreduce.Job:工作job_1443541526464_0115失败   状态为FAILED由于:任务失败task_1443541526464_0115_r_000010   任务失败,作业失败。 failedMaps:0 failedReduces:1

     

2015-10-02 15:04:21,451 INFO [main] org.apache.hadoop.mapreduce.Job:   专柜:45           文件系统计数器                   FILE:读取的字节数= 280                   FILE:写入的字节数= 10512783                   FILE:读取操作数= 0                   FILE:大读取操作数= 0                   FILE:写操作次数= 0                   HDFS:读取的字节数= 32185011                   HDFS:写入的字节数= 0                   HDFS:读取操作数= 170                   HDFS:大读取操作数= 0                   HDFS:写操作次数= 28           工作柜台                   减少任务失败= 4                   启动地图任务= 32                   推出减少任务= 18                   数据本地映射任务= 15                   机架局部地图任务= 17                   占用时隙中所有映射所花费的总时间(ms)= 2652786                   所有花费的总时间减少占用的时隙(ms)= 65506584           Map-Reduce框架                   映射输入记录= 156810                   地图输出记录= 156810                   映射输出字节= 30892192                   映射输出物化字节= 6583455                   输入拆分字节= 3904                   合并输入记录= 0                   合并输出记录= 0                   减少输入组= 0                   减少shuffle bytes = 7168                   减少输入记录= 0                   减少输出记录= 0                   溢出记录= 156810                   随机地图= 448                   失败的Shuffles = 0                   合并的地图输出= 448                   失败的Shuffles = 0                   合并的地图输出= 448                   GC时间已过(ms)= 2524                   花费的CPU时间(毫秒)= 108250                   物理内存(字节)snapshot = 14838984704                   虚拟内存(字节)snapshot = 106769969152                   总提交堆使用量(字节)= 18048614400           随机错误                   BAD_ID = 0                   CONNECTION = 0                   IO_ERROR = 0                   WRONG_LENGTH = 0                   WRONG_MAP = 0                   WRONG_REDUCE = 0           文件输入格式计数器                   字节读取= 32181107           文件输出格式计数器                   Bytes Written = 0 2015-10-02 15:04:21,451 INFO [main] com.amazon.external.elasticmapreduce.s3distcp.S3DistCp:试试   递归删除   hdfs:/ tmp / 218ad028-8035-4f97-b113-3cfea04502fc / tempspace 2015-10-02   15:04:21,515 INFO [主要]   org.apache.hadoop.io.compress.zlib.ZlibFactory:已成功加载&   初始化native-zlib库2015-10-02 15:04:21,516 INFO [main]   org.apache.hadoop.io.compress.CodecPool:得到了全新的压缩机   [.deflate] 2015-10-02 15:04:21,554 INFO [主要]   org.apache.hadoop.mapred.Task:   任务:attempt_1443541526464_0114_m_000000_0完成。并且在   提交过程2015-10-02 15:04:21,570 INFO [主要]   org.apache.hadoop.mapred.Task:任务   attempt_1443541526464_0114_m_000000_0现在可以提交   2015-10-02 15:04:21,584 INFO [主要]   org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:已保存   任务'attempt_1443541526464_0114_m_000000_0'的输出到   hdfs://rnd2-emr-head.ec2.int$ 2015-10-02 15:04:21,598 INFO [main]   org.apache.hadoop.mapred.Task:任务   'attempt_1443541526464_0114_m_000000_0'完成了。 2015-10-02 15:04:21,616   INFO [Thread-6] amazon.emr.metrics.MetricsSaver:Inside MetricsSaver   关机挂钩

我们非常感谢任何建议。

1 个答案:

答案 0 :(得分:0)

您可以尝试清理hdfs:// tmp目录吗?只需备份目录,因为其他一些应用程序使用tmp目录,如果您遇到任何问题,可以替换tmp目录。