我正在使用Nutch 1.7,一切似乎都运转得很好。但是,有一个大问题我不知道如何克服。
如何抓取过去24小时内新添加的网址。当然我们可以使用自适应提取,但我们希望还有另一种更好的方法,直到现在我们都不知道。
我们只需要每天访问我们的源网站时过去24小时内添加的网址。
请告诉我是否可以配置和设置nutch,或者如果有一个书面插件只能抓取过去24小时内添加的网址。
亲切的问候, 基督教
答案 0 :(得分:0)
通过解析HTML获得新的网址!
您无法通过解析来指定锚点的生命周期
<a>
标记!
您必须在数据库中有旧网址列表,以便跳过它们!