通常,我的spark作业(火花2.3.1)需要1个小时才能完成,但是在少数情况下,它会继续运行超过几个小时(必须手动终止EMR集群)。对于此类事件,我发现Spark控制台中存在一项任务。
10/04/19 17:47:21 INFO客户端:application_1554890864238_0001的应用程序报告(状态:RUNNING)
其背后的原因是什么?关于如何调试问题的任何想法?
我调查了纱线和容器原木。我没有找到任何背后的具体原因。此问题是随机发生的。
作为一个嫌疑人,我手动关闭了spart会话,但仍然遇到相同的问题。
public SparkSession getNewSparkSession(final String appName) {
return SparkSession
.builder()
.appName(appName)
.enableHiveSupport()
.getOrCreate();
}
finally {
sparkSession.stop();
log.info("Spark session stopped...");
}