hadoop map任务超时

时间:2017-08-08 03:11:55

标签: hadoop mapreduce nutch

最近,我收到了地图任务尝试超时错误。我已经更改了mapreduce.task.timeout=1800000次或更长时间,但我的问题仍然存在。

有人可以帮我这个吗?

背景: 我使用Nutch抓取网站,在generate阶段地图任务失败。 crawldb中的每个部分大约是10~20G。节点之间的资源(内存和CPU核心)有很大差距。

1 个答案:

答案 0 :(得分:0)

每部分CrawlDb 10-20 GB听起来很多,但也取决于部分是否可拆分(参见mapreduce.input.fileinputformat.split.minsizemapreduce.output.fileoutputformat.compress.codec)。

我最喜欢的" CrawlDb的设置是

  • 使用BZip2Codec(可拆分)和
  • 将部件大小限制为2000万个URL。通过-Dmapreduce.job.reduces=XXX相应地将减速器数量设置为写入CrawlDb的所有作业(updatedb,inject,mergedb,dedup),大约1GB(压缩bzip2)

但是,要为群集设置和硬件找到最佳选项,可能需要进行一些实验。只需确保没有任务花费太长时间并占据作业执行时间。