我使用以下逻辑在单节点Spring Batch应用程序上重新启动未完成的作业:
public void restartUncompletedJobs() {
try {
jobRegistry.register(new ReferenceJobFactory(documetPipelineJob));
List<String> jobs = jobExplorer.getJobNames();
for (String job : jobs) {
Set<JobExecution> runningJobs = jobExplorer.findRunningJobExecutions(job);
for (JobExecution runningJob : runningJobs) {
runningJob.setStatus(BatchStatus.FAILED);
runningJob.setEndTime(new Date());
jobRepository.update(runningJob);
jobOperator.restart(runningJob.getId());
}
}
} catch (Exception e) {
LOGGER.error(e.getMessage(), e);
}
}
现在,我正在尝试使其在两节点群集上运行。每个节点上的两个应用程序都将指向共享的PostgreSQL数据库。
让我们考虑以下示例:我有2个作业实例-jobInstance1
正在node1
上运行,而jobInstance2
正在node2
上运行。 Node1
执行期间,由于某种原因,jobInstance1
重新启动。在node1
重新启动后,spring batch应用程序尝试使用上述逻辑重新启动未完成的作业-它看到有2个未完成的作业实例-jobInstance1
和jobInstance2
(正在正确地运行node2
),然后尝试重新启动它们。通过这种方式代替重新启动唯一的jobInstance1
-它会重新启动jobInstance1
和jobInstance2
..但是jobInstance2
不应重新启动,因为它现在在{ {1}}。
如何在应用程序启动期间正确地重启未完成的作业(在上一次应用程序终止之前),并防止像node2
之类的作业也将重新启动的情况?
已更新
这是下面答案中提供的解决方案:
jobInstance2
我有一个关于#2.1的问题-在应用程序重新启动后,Spring Batch会自动以运行中的执行方式重新启动未完成的作业吗?还是我需要执行手动操作?
答案 0 :(得分:1)
您的逻辑不会重新启动未完成的作业。您的逻辑是采用当前正在运行的作业执行,将其状态设置为FAILED
并重新启动它们。您的逻辑不应找到正在运行的执行,应查找当前正在运行的执行,尤其是失败的执行,然后重新启动。
如何正确地重新启动失败的作业并防止像jobInstance2这样的作业也将重新启动的情况?
在伪代码中,您需要执行以下操作:
JobOperator#getJobInstances
获取工作的工作实例对于每个实例,使用JobOperator#getExecutions
检查是否正在运行执行。
2.1如果正在运行执行,请移至下一个实例(以使执行成功或失败完成)
2.2如果当前没有正在运行的执行,请检查上一次执行的状态,如果失败则使用JobOperator#restart
重新启动。
在您的情况下:
jobInstance1
应该在步骤2.2中重新启动jobInstance2
应该在步骤2.1中进行过滤,因为在节点2上有正在运行的执行。