我正在尝试使用Nutch抓取网站。我使用命令:
- 注入URL注入到数据库
- 生成/获取/解析/更新b
的循环
我注意到Nutch在每次循环迭代中获取已经获取的URL。
Config我做了:
- 将过滤器添加到regex-urlfilter.txt
为nutch-site.xml添加了配置:
- http.agent.name设置值MyNutchSpider
- http.robots.agents将值设置为MyNutchSpider
- file.content.limit -1
- http.content.limit -1
- ftp.content.limit -1
- fetcher.server.delay设置值为1.0
- fetcher.threads.fetch将值设置为1
- parser.character.encoding.default
- plugin.includes添加了协议协议-httpient
- 设置storage.data.store.class以使用自定义存储
我使用命令:
- bin / nutch generate -topN 10
- bin / nutch fetch -all
- bin / nutch parse -all
- bin / nutch updatedb -all
我尝试过使用MySQL的Nutch 2.2.1和使用MongoDB的2.3版本。结果是在每个爬网循环迭代中重新获取已经获取的URL。
我应该怎样做才能获取所有未抓取的网址?