nutch crawler - 如何设置每个主机的最大链接数

时间:2010-10-06 08:03:01

标签: full-text-search solr search-engine nutch

如何设置每个主机索引的最大页数? 我不想索引所有百万页的网站,我只想索引前100000个网页。

1 个答案:

答案 0 :(得分:0)

如果深度= 10且topN = 1000,则索引中的文档数量不会超过10000个(如果不重新爬网)。 'depth'参数表示Nutch将运行多少次迭代。 'topN'参数控制在一次迭代期间将获取的最大URL数。因此,将'depth'乘以'topN'可以得出将索引的网址数量的近似值。这是一个近似值,因为您可能会有超时或返回404的网址。

如果您不想重新抓取,请确保将“db.fetch.interval.default”设置为具有足够高的值,以便抓取作业完成。如果在该时间间隔到期时未完成爬网作业,则您将开始重新抓取一些网址,因此索引的网址数将小于深度* topN。