大家好 我正在制作一个Web应用程序,可从特定网站抓取很多页面, 我以无限的深度和页面启动了我的crawler4j软件,但突然由于互联网连接而停止了。 现在,我要继续爬网该网站,而不要在考虑到我的最后一页深度之前不获取访问过的网址。
注意:我想要某种方式,不要用要获取的网址来检查存储的网址,因为我不想向该站点发送太多请求。
**谢谢**☺
答案 0 :(得分:2)
通过启用此功能,您可以通过crawler4j
使用“可恢复”爬网
crawlConfig.setResumableCrawling(true);
在给定的配置中。请参阅crawler4j
here的文档。