让nutch优先考虑经常更新的页面?

时间:2010-07-08 11:02:39

标签: web-crawler nutch

有没有办法让Nutch增加对频繁更新的网页的抓取?

E.g。索引页面和提要。

在页面创建后的第一个日期更频繁地刷新包含注释的新页面也很有价值。任何提示都表示赞赏。

1 个答案:

答案 0 :(得分:1)

您需要的是Adaptive Fetch Schedule。我写了a blog post关于它是如何工作的。基本上,这个调度程序所做的是逐渐使得更频繁更改的页面越来越频繁地被访问。