我已经知道您可以将抓取配置为可恢复的。
但是是否可以使用可恢复功能暂停抓取过程,然后以编程方式稍后恢复抓取?例如。我可以优雅shutdown
使用抓取工具的关闭方法进行抓取,并将可恢复参数设置为true
,然后重新开始抓取。
它是否会以这种方式工作,因为可恢复参数的主要目的是处理爬虫的意外崩溃。有没有其他或更好的方法如何使用crawler4j实现此功能?
答案 0 :(得分:2)
如果将参数设置为true
,则Frontier
以及DocIdServer
会将其队列存储在用户定义的存储文件夹中。
这适用于崩溃或程序性关闭。在这两种情况下,存储文件夹必须相同。
另请参阅官方问题跟踪器上的the related issue