Question

大家好 我正在制作一个Web应用程序，可从特定网站抓取很多页面，我以无限的深度和页面启动了我的crawler4j软件，但突然由于互联网连接而停止了。现在，我要继续爬网该网站，而不要在考虑到我的最后一页深度之前不获取访问过的网址。

注意：我想要某种方式，不要用要获取的网址来检查存储的网址，因为我不想向该站点发送太多请求。

**谢谢**☺

Answer 1

通过启用此功能，您可以通过crawler4j使用“可恢复”爬网

crawlConfig.setResumableCrawling(true);

在给定的配置中。请参阅crawler4j here的文档。