应用错误收集

Nutch 2.X - 首选网址

时间：2013-09-28 15:29:11

标签： solr web-crawler nutch

我遇到这种情况：我的种子中有超过160个网址。我在一周前开始爬行。现在我在我的存储中抓取了很多页面但是我可以在我的Solr索引中看到来自种子的一些URL根本没有被抓取（这些URL没有来自robots.txt的一些限制）或者只是非常少的数量。有可能告诉Nutch更喜欢一些网址吗？

1 个答案:

答案 0 :(得分：0)

您检查过TopN值吗？或者Nutch还在爬行吗？因为索引和发送数据到solr是在进程结束时完成的！