我正在尝试为抓取网站优化nutch性能。现在我在小型hadoop集群上测试性能,只有两个节点32gb RAM,cpu Intel Xeon E3 1245v2 4c / 8t。 我对nutch http://pastebin.com/bBRHpFuq
的配置所以,问题是:取得工作并不是最佳的。一些reduce任务有4k页用于获取,大约1kk页。例如,见截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些减少任务在10分钟内完成,但是一个任务工作11小时仍然继续工作,所以当我有24个减少任务时,它就像瓶颈,但只能工作一个。
可能有人可以提供有用的建议或链接,我可以阅读有关问题的内容。
答案 0 :(得分:1)
这是Nutch的问题,一个网站需要大约5 000 000,其他网站需要50万。因此,当它按主机创建队列时,我们会看到一个非常大的队列和其他非常小的队列。