我已经使用hadoop 1.2.1和hbase 0.94.x配置了apache nutch 2.3。我必须抓网几个星期。需要抓取大约100万个文档。我有四个节点hadoop集群。在此配置之前,我在单机上设置了nutch并抓取了一些文档。但是爬行率不超过50k到80k。什么应该是nutch的配置,以便它可以每天抓取所需数量的文件。
答案 0 :(得分:1)
通常,您可以设置更大的TopN,并将nutch-site.xml中的<name>http.content.limit</name>
更改为-1。
希望这有帮助,
Le Quoc Do