我也收到了错误"拆分元数据大小超过了10000000"关于CDH3 -Hadoop 0.20.2-cdh3u1的问题。在我的情况下,有两个输入 inp1大小= 1GB inp2大小= 7 MB
当我使用mapred.max.split.size = 256MB时,会抛出以下错误。
Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201412112225_1046114 at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:814) at org.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:708) at org.apache.hadoop.mapred.JobTracker.initJob(JobTracker.java:4016) at org.apache.hadoop.mapred.EagerTaskInitializationListener$InitJob.run(EagerTaskInitializationListener.java:79) at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) at java.lang.Thread.run(Thread.java:662)
当我更改mapred.max.split.size = 8MB时,它会成功运行但是需要太多的映射器。
相同配置的相同作业在cdh4.6上正常运行
任何提示/建议来解决此问题。
答案 0 :(得分:-1)
对于cloudera,将“mapreduce.jobtracker.split.metainfo.maxsize”设置为-1应该可以完成这项工作。 或者,您可能需要将“mapreduce.job.split.metainfo.maxsize”设置为-1,每https://hadoop.apache.org/docs/r2.4.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml。