如何在Nutch中找到未获取URLS的深度和分数

时间:2013-03-24 11:17:58

标签: nutch web-crawler

您好我使用以下参数使用nutch 1.5.1抓取了一个网站。 -depth = 20和-topN = 800。现在我有相当多的URL(大约6K),其状态为db_unfetched。我想确定两件事:

  1. 为什么他们的状态不受限制。有没有办法跟踪爬行时忽略URL的原因。我检查了URL过滤器(它们都已到位)。

  2. 我可以找出Nutch发现每个URL的深度。所有未获取的页面(所有这些页面都有内容,因此没有404错误)在深度为20时发现,或者某些页面在达到该深度之前被忽略。

  3. 我无法再次抓取该网站,是否有任何命令可用于追溯URLS的评分并确定其深度。

0 个答案:

没有答案