应用错误收集

无论如何都要记录Nutch抓取中被忽略的网址列表？

时间：2013-03-16 18:36:43

标签： apache solr web-crawler nutch

我正在使用Nutch来抓取种子文件中指定的URL深度100和topN 10,000，以确保完全抓取。此外，我试图使用regex-urlfilter http://rubular.com/r/oSkwqGHrri

忽略路径中重复字符串的网址

但是，我很想知道在抓取过程中哪些网址被忽略了。无论如何，我可以记录Nutch在抓取时“忽略”的网址列表吗？

1 个答案:

答案 0 :(得分：1)

可以使用以下命令找到链接

bin / nutch readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER -format csv

这将在dump_folder中生成part-00000文件，该文件将分别包含url列表及其状态。

爬虫程序已忽略状态为db_unfetched的那些。