重新启动搜寻器后,我到达最后一个深度后如何恢复搜寻?

时间:2018-11-20 19:34:56

标签: java web-crawler crawler4j

大家好 我正在制作一个Web应用程序,可从特定网站抓取很多页面, 我以无限的深度和页面启动了我的crawler4j软件,但突然由于互联网连接而停止了。 现在,我要继续爬网该网站,而不要在考虑到我的最后一页深度之前不获取访问过的网址。

  

注意:我想要某种方式,不要用要获取的网址来检查存储的网址,因为我不想向该站点发送太多请求。

**谢谢**☺

1 个答案:

答案 0 :(得分:2)

通过启用此功能,您可以通过crawler4j使用“可恢复”爬网

crawlConfig.setResumableCrawling(true);

在给定的配置中。请参阅crawler4j here的文档。