我们有一个Spark过程,在EMR 5.12.1上的Spark 2.2.1中花了大约22分钟,在EMR 5.14.0上的Spark 2.3.0中花了7h(是,从22分钟到7h !!)发生在5.13.0中)。两者都使用完全相同的数据,相同的集群大小和相同的应用程序运行,唯一的区别是Spark / EMR版本,还有其他人看到过类似的东西吗?我可以提供一些解决方案吗? 这是我们在日志中得到的:
Container killed by YARN for exceeding memory limits. 6.6 GB of 6.6 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.
当然已经尝试了 spark.executor.memory 和 spark.yarn.executor.memoryOverhead 的许多变体,但是我能得到的最好结果是1h42分钟,真的很远从22分钟开始 我真的很感激与此有关的任何帮助! 谢谢