应用错误收集

如何在Nutch中找到未获取URLS的深度和分数

时间：2013-03-24 11:17:58

标签： nutch web-crawler

您好我使用以下参数使用nutch 1.5.1抓取了一个网站。 -depth = 20和-topN = 800。现在我有相当多的URL（大约6K），其状态为db_unfetched。我想确定两件事：

为什么他们的状态不受限制。有没有办法跟踪爬行时忽略URL的原因。我检查了URL过滤器（它们都已到位）。
我可以找出Nutch发现每个URL的深度。所有未获取的页面（所有这些页面都有内容，因此没有404错误）在深度为20时发现，或者某些页面在达到该深度之前被忽略。

我无法再次抓取该网站，是否有任何命令可用于追溯URLS的评分并确定其深度。

0 个答案:

没有答案