如果它运行超过x分钟,有没有办法杀死火花作业

时间:2018-04-12 22:44:12

标签: scala apache-spark

我正在使用bash在多个数据集上运行相同的spark(scala)函数。其中一些数据集需要很长时间,我想跳过它们,这样我就可以在有限的时间内完成尽可能多的数据集。 在scala函数中是否有一种方法可以用来终止作业,如果它运行超过x分钟? 对于您的信息我使用bash作为: for dataFolder / *中的文件名;做spark-2.3.0-bin-hadoop2.7 / bin / spark-submit --class myclass myclass.jar $ {filename};完成

1 个答案:

答案 0 :(得分:0)

在运行for循环之前 试试这样的事情

(sleep 3600 && yarn application -kill myclass)&在后​​台启动超时

如果myclass是动态的,请使用bash函数获取当前纱线应用ID,例如APPID=$(yarn application -list | grep some id | awk 'print {$1}')或其他