标签: nutch
在Nutch2.2.1中,当我每次都运行nutch时,它会抓取所有网址,包括我已经抓取过。
我希望一个网址只能被抓取一次,无论nutch运行的次数如何,那么,如何配置呢?
答案 0 :(得分:0)
获取网站后,Nutch将网站的网址标记为FETCHED网址,并且在下一轮抓取时不会再次抓取该网址。默认情况下,Nutch将在30天后重新抓取。您可以通过修改 db.fetch.interval.default 属性来更改重新获取页面之间的默认秒数。
希望这有帮助,
Le Quoc Do