我在nutch 1.3中抓取网站。现在我想从crawldb中删除一个url,我该怎么做?我怎么读crawldb?我想看看crawldb中存在的网址。
答案 0 :(得分:0)
要从crawlDb读取,您可以使用CrawlDBReader类(org.apache.nutch.crawl包)。要从crawlDb中删除/删除URL,您可以使用带有“-filter”选项的CrawlDBMerger类(org.apache.nutch.crawl包)进行尝试。但我建议根据您的需要编写Mapreduce来删除网址。