如何使用apache Nutch 2.3每天从Web抓取100万个文档

时间:2015-12-01 06:42:26

标签: hadoop web-scraping web-crawler hbase nutch

我已经使用hadoop 1.2.1和hbase 0.94.x配置了apache nutch 2.3。我必须抓网几个星期。需要抓取大约100万个文档。我有四个节点hadoop集群。在此配置之前,我在单机上设置了nutch并抓取了一些文档。但是爬行率不超过50k到80k。什么应该是nutch的配置,以便它可以每天抓取所需数量的文件。

1 个答案:

答案 0 :(得分:1)

通常,您可以设置更大的TopN,并将nutch-site.xml中的<name>http.content.limit</name>更改为-1。

希望这有帮助,

Le Quoc Do