Nutch - 如何使用nutch仅抓取过去24小时内新添加的网址?

时间:2014-02-18 09:32:03

标签: plugins nutch

我正在使用Nutch 1.7,一切似乎都运转得很好。但是,有一个大问题我不知道如何克服。

如何抓取过去24小时内新添加的网址。当然我们可以使用自适应提取,但我们希望还有另一种更好的方法,直到现在我们都不知道。

我们只需要每天访问我们的源网站时过去24小时内添加的网址。

请告诉我是否可以配置和设置nutch,或者如果有一个书面插件只能抓取过去24小时内添加的网址。

亲切的问候, 基督教

1 个答案:

答案 0 :(得分:0)

通过解析HTML获得新的网址!

您无法通过解析来指定锚点的生命周期  <a>  标记!

您必须在数据库中有旧网址列表,以便跳过它们!