在我们的应用程序中,Heritrix被用作爬网引擎,一旦爬网作业完成,我们就会手动启动端点以从网站下载PDF。我们希望在抓取作业完成后自动执行此下载pdf任务。 HEritrix是否提供任何URI / webservice方法 - 它返回作业的状态? (或)我们是否需要创建一个轮询应用程序来持续监控工作状态?
答案 0 :(得分:0)
我不知道是否有任何选择可以在没有持续监控的情况下进行,但您可以使用Heritrix API获取工作状态,如
curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob
为您提供了可以从中读取作业状态的XML。
另一个,也许更容易(但不是那么专业')选项是检查你的作业warcs目录是否包含扩展名为.open的文件。如果没有 - 工作就完成了。