Nutch 2.X - 首选网址

时间:2013-09-28 15:29:11

标签: solr web-crawler nutch

我遇到这种情况:我的种子中有超过160个网址。我在一周前开始爬行。现在我在我的存储中抓取了很多页面但是我可以在我的Solr索引中看到来自种子的一些URL根本没有被抓取(这些URL没有来自robots.txt的一些限制)或者只是非常少的数量。有可能告诉Nutch更喜欢一些网址吗?

1 个答案:

答案 0 :(得分:0)

您检查过TopN值吗? 或者Nutch还在爬行吗?因为索引和发送数据到solr是在进程结束时完成的!