从nutch 1.3中的crawldb中删除url?

时间:2011-11-14 08:30:55

标签: nutch web-crawler urlfetch

我在nutch 1.3中抓取网站。现在我想从crawldb中删除一个url,我该怎么做?我怎么读crawldb?我想看看crawldb中存在的网址。

1 个答案:

答案 0 :(得分:0)

要从crawlDb读取,您可以使用CrawlDBReader类(org.apache.nutch.crawl包)。要从crawlDb中删除/删除URL,您可以使用带有“-filter”选项的CrawlDBMerger类(org.apache.nutch.crawl包)进行尝试。但我建议根据您的需要编写Mapreduce来删除网址。