是否可以使用Java crawler crawler4j暂停和恢复爬网?

时间:2017-10-16 11:19:34

标签: java web-scraping web-crawler crawler4j

我已经知道您可以将抓取配置为可恢复的。

但是是否可以使用可恢复功能暂停抓取过程,然后以编程方式稍后恢复抓取?例如。我可以优雅shutdown使用抓取工具的关闭方法进行抓取,并将可恢复参数设置为true,然后重新开始抓取。

它是否会以这种方式工作,因为可恢复参数的主要目的是处理爬虫的意外崩溃。有没有其他或更好的方法如何使用crawler4j实现此功能?

1 个答案:

答案 0 :(得分:2)

如果将参数设置为true,则Frontier以及DocIdServer会将其队列存储在用户定义的存储文件夹中。

这适用于崩溃或程序性关闭。在这两种情况下,存储文件夹必须相同。

另请参阅官方问题跟踪器上的the related issue