如何在分布式模式下运行apache nutch

时间:2015-09-24 04:45:59

标签: hadoop web-crawler nutch

我正在使用Apache Nutch 2.3。我有一个由4个Hadoop(1.2.1)节点组成的小集群。我正在运行Crawler的一个实例。它每天爬行约30k-50k页。我每天必须抓取更多页面(假设价值大约是100万)。我从Nutch的FAQ中尝试过不同的问题。但爬行的文件无法增加。我想我应该在完全分布式模式下运行Nutch(我希望Nutch的完全分布式模式运行多个实例)。

我的问题的解决方案是什么?

1 个答案:

答案 0 :(得分:0)

通常,您应该增加topN值并将<name>http.content.limit</name>(在nutch-site.xml中)的值设置为 -1