应用错误收集

如何使用apache Nutch 2.3每天从Web抓取100万个文档

时间：2015-12-01 06:42:26

标签： hadoop web-scraping web-crawler hbase nutch

我已经使用hadoop 1.2.1和hbase 0.94.x配置了apache nutch 2.3。我必须抓网几个星期。需要抓取大约100万个文档。我有四个节点hadoop集群。在此配置之前，我在单机上设置了nutch并抓取了一些文档。但是爬行率不超过50k到80k。什么应该是nutch的配置，以便它可以每天抓取所需数量的文件。

1 个答案:

答案 0 :(得分：1)

通常，您可以设置更大的TopN，并将nutch-site.xml中的<name>http.content.limit</name>更改为-1。

希望这有帮助，

Le Quoc Do

如何使用Apache Nutch抓取.pdf链接
使用nutch抓取PDF文档
如何使用Nutch 1.6抓取PDF文档？
如何让apache nutch永远爬行
如何让Apache Nutch永远爬行
如何限制Apache Nutch仅抓取特定于语言的文档
如何使用nutch 2.3抓取特定页面？
如何使用apache Nutch 2.3每天从Web抓取100万个文档
如何使用Apache Nutch抓取特定网站？
如何使用apache nutch抓取几个主题的数据？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？