我正在使用Apache Nutch 2.3。我有一个由4个Hadoop(1.2.1)节点组成的小集群。我正在运行Crawler的一个实例。它每天爬行约30k-50k页。我每天必须抓取更多页面(假设价值大约是100万)。我从Nutch的FAQ中尝试过不同的问题。但爬行的文件无法增加。我想我应该在完全分布式模式下运行Nutch(我希望Nutch的完全分布式模式运行多个实例)。
我的问题的解决方案是什么?
答案 0 :(得分:0)
通常,您应该增加topN值并将<name>http.content.limit</name>
(在nutch-site.xml中)的值设置为 -1