您好我使用以下参数使用nutch 1.5.1抓取了一个网站。 -depth = 20和-topN = 800。现在我有相当多的URL(大约6K),其状态为db_unfetched。我想确定两件事:
为什么他们的状态不受限制。有没有办法跟踪爬行时忽略URL的原因。我检查了URL过滤器(它们都已到位)。
我可以找出Nutch发现每个URL的深度。所有未获取的页面(所有这些页面都有内容,因此没有404错误)在深度为20时发现,或者某些页面在达到该深度之前被忽略。
我无法再次抓取该网站,是否有任何命令可用于追溯URLS的评分并确定其深度。