应该配置什么来停止nutch重新索引或再次获取。它应该只为一个url索引一次

时间:2014-08-20 06:45:59

标签: web-crawler nutch

任何人都可以指出正确的文档或黑客来阻止nutch重新索引或获取相同的内容。 我只想为给定的URL抓取一次

1 个答案:

答案 0 :(得分:3)

以下是nutch执行的流程:

  1. 获取种子网址

  2. 从该种子网址生成网址

  3. 创建linkDB

  4. 仅获取Nutch新增的链接内容或更改校验和(即修改后的URL)

  5. 它将获取内容并仅解析新内容或修改过的链接的内容。

  6. 对于其他网址,它只会生成网址并将其保留在链接数据库中。

  7. 示例:

    1. 在第一次抓取时,Nutch从10个网址中抓取,生成并抓取了内容。

    2. 现在说我的网站添加了3个链接

    3. 在第二次获取/重新索引中,Nutch将访问所有13个URL,并生成URL并将其保存在linkdb中,但只获取新添加的3个URL的内容并获取内容并解析它