任何人都可以指出正确的文档或黑客来阻止nutch重新索引或获取相同的内容。 我只想为给定的URL抓取一次
答案 0 :(得分:3)
以下是nutch执行的流程:
获取种子网址
从该种子网址生成网址
创建linkDB
仅获取Nutch新增的链接内容或更改校验和(即修改后的URL)
它将获取内容并仅解析新内容或修改过的链接的内容。
对于其他网址,它只会生成网址并将其保留在链接数据库中。
示例:
在第一次抓取时,Nutch从10个网址中抓取,生成并抓取了内容。
现在说我的网站添加了3个链接
在第二次获取/重新索引中,Nutch将访问所有13个URL,并生成URL并将其保存在linkdb中,但只获取新添加的3个URL的内容并获取内容并解析它