避免"此作业100325的任务数超过配置的限制"错误

时间:2014-08-03 12:43:16

标签: hadoop mapreduce apache-pig

我每周都会在生产群集上运行一个Pig脚本。 在上一次运行中,我收到了以下错误

org.apache.pig.backend.executionengine.ExecException: ERROR 6017: Job failed! Error - Job   initialization failed:
java.io.IOException: The number of tasks for this job 100325 exceeds the configured limit 100000
    at org.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:719)
    at org.apache.hadoop.mapred.JobTracker.initJob(JobTracker.java:4041)

我试图在Pig Properties中将mapred.jobtracker.maxtasks.per.job设置为100000,但没有运气。

关于如何限制我的工作以创建少于100000个映射器的任何想法?

由于

1 个答案:

答案 0 :(得分:0)

尝试摆弄分割大小的系统属性,通过将mapred.min.split.size设置为非常大的东西,最终应该使用较少的映射器。现在,如果您有100325个文件,则需要使用CombineFileInputFormat