Nutch2.x每次运行每个url

时间:2015-06-24 06:08:44

标签: nutch

在Nutch2.2.1中,当我每次都运行nutch时,它会抓取所有网址,包括我已经抓取过。

我希望一个网址只能被抓取一次,无论nutch运行的次数如何,那么,如何配置呢?

1 个答案:

答案 0 :(得分:0)

获取网站后,Nutch将网站的网址标记为FETCHED网址,并且在下一轮抓取时不会再次抓取该网址。默认情况下,Nutch将在30天后重新抓取。您可以通过修改 db.fetch.interval.default 属性来更改重新获取页面之间的默认秒数。

希望这有帮助,

Le Quoc Do