应用错误收集

是否可以使用Java crawler crawler4j暂停和恢复爬网？

时间：2017-10-16 11:19:34

标签： java web-scraping web-crawler crawler4j

我已经知道您可以将抓取配置为可恢复的。

但是是否可以使用可恢复功能暂停抓取过程，然后以编程方式稍后恢复抓取？例如。我可以优雅shutdown使用抓取工具的关闭方法进行抓取，并将可恢复参数设置为true，然后重新开始抓取。

它是否会以这种方式工作，因为可恢复参数的主要目的是处理爬虫的意外崩溃。有没有其他或更好的方法如何使用crawler4j实现此功能？

1 个答案:

答案 0 :(得分：2)

如果将参数设置为true，则Frontier以及DocIdServer会将其队列存储在用户定义的存储文件夹中。

这适用于崩溃或程序性关闭。在这两种情况下，存储文件夹必须相同。

另请参阅官方问题跟踪器上的the related issue