我们如何知道Heritrix何时完成抓取工作?

时间:2016-02-08 16:12:11

标签: heritrix

在我们的应用程序中,Heritrix被用作爬网引擎,一旦爬网作业完成,我们就会手动启动端点以从网站下载PDF。我们希望在抓取作业完成后自动执行此下载pdf任务。 HEritrix是否提供任何URI / webservice方法 - 它返回作业的状态? (或)我们是否需要创建一个轮询应用程序来持续监控工作状态?

1 个答案:

答案 0 :(得分:0)

我不知道是否有任何选择可以在没有持续监控的情况下进行,但您可以使用Heritrix API获取工作状态,如

curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob

为您提供了可以从中读取作业状态的XML。

另一个,也许更容易(但不是那么专业')选项是检查你的作业warcs目录是否包含扩展名为.open的文件。如果没有 - 工作就完成了。