应用错误收集

Nutch提取已经获取的URL

时间：2015-01-15 10:27:53

标签： nutch

我正在尝试使用Nutch抓取网站。我使用命令：

注入URL注入到数据库
生成/获取/解析/更新b

我注意到Nutch在每次循环迭代中获取已经获取的URL。

Config我做了：

将过滤器添加到regex-urlfilter.txt

为nutch-site.xml添加了配置：

http.agent.name设置值MyNutchSpider
http.robots.agents将值设置为MyNutchSpider
file.content.limit -1
http.content.limit -1
ftp.content.limit -1
fetcher.server.delay设置值为1.0
fetcher.threads.fetch将值设置为1
parser.character.encoding.default
plugin.includes添加了协议协议-httpient
设置storage.data.store.class以使用自定义存储

我使用命令：

bin / nutch generate -topN 10
bin / nutch fetch -all
bin / nutch parse -all
bin / nutch updatedb -all

我尝试过使用MySQL的Nutch 2.2.1和使用MongoDB的2.3版本。结果是在每个爬网循环迭代中重新获取已经获取的URL。

我应该怎样做才能获取所有未抓取的网址？

1 个答案:

答案 0 :(得分：1)

对于Nutch 2.X来说，这是一个未解决的问题。我这个周末也面对面。

修复程序计划在2.3.1版本中发布：https://issues.apache.org/jira/browse/NUTCH-1922。