Nutch提取已经获取的URL

时间:2015-01-15 10:27:53

标签: nutch

我正在尝试使用Nutch抓取网站。我使用命令:

  • 注入URL注入到数据库
  • 生成/获取/解析/更新b
  • 的循环

我注意到Nutch在每次循环迭代中获取已经获取的URL。

Config我做了:

  • 将过滤器添加到regex-urlfilter.txt

为nutch-site.xml添加了配置:

  • http.agent.name设置值MyNutchSpider
  • http.robots.agents将值设置为MyNutchSpider
  • file.content.limit -1
  • http.content.limit -1
  • ftp.content.limit -1
  • fetcher.server.delay设置值为1.0
  • fetcher.threads.fetch将值设置为1
  • parser.character.encoding.default
  • plugin.includes添加了协议协议-httpient
  • 设置storage.data.store.class以使用自定义存储

我使用命令:

  • bin / nutch generate -t​​opN 10
  • bin / nutch fetch -all
  • bin / nutch parse -all
  • bin / nutch updatedb -all

我尝试过使用MySQL的Nutch 2.2.1和使用MongoDB的2.3版本。结果是在每个爬网循环迭代中重新获取已经获取的URL。

我应该怎样做才能获取所有未抓取的网址?

1 个答案:

答案 0 :(得分:1)

对于Nutch 2.X来说,这是一个未解决的问题。我这个周末也面对面。

修复程序计划在2.3.1版本中发布:https://issues.apache.org/jira/browse/NUTCH-1922