我每周都会在生产群集上运行一个Pig脚本。 在上一次运行中,我收到了以下错误
org.apache.pig.backend.executionengine.ExecException: ERROR 6017: Job failed! Error - Job initialization failed:
java.io.IOException: The number of tasks for this job 100325 exceeds the configured limit 100000
at org.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:719)
at org.apache.hadoop.mapred.JobTracker.initJob(JobTracker.java:4041)
我试图在Pig Properties中将mapred.jobtracker.maxtasks.per.job设置为100000,但没有运气。
关于如何限制我的工作以创建少于100000个映射器的任何想法?
由于
答案 0 :(得分:0)
尝试摆弄分割大小的系统属性,通过将mapred.min.split.size
设置为非常大的东西,最终应该使用较少的映射器。现在,如果您有100325个文件,则需要使用CombineFileInputFormat
。