我在2.7.0版(我使用HDP 2.5)的Hadoop集群上部署了spark应用程序(2.0.1)。所有这些spark应用程序都在动态分配模式下正常运行了将近两年。但是,本周发生了异常。所有这些Spark应用程序不断要求的资源超出应分配的范围。
例如具有以下配置
test[one] == 1
test[two] == 3
spark应用程序继续请求超过18个执行程序(甚至分配给更多执行程序),直到它淹没所有队列并获取所有资源管理器为止。这种“症状”发生在我集群中的所有spark应用程序上
我检查了所有包含的相关日志:资源管理器日志,应用程序日志和节点管理器日志,但找不到任何异常。请帮助我。
感谢一百万!
我最喜欢配置文件的附件
spark驱动程序的日志,它不断要求新的执行者,而旧的执行者同时不断遭到破坏
spark.dynamicAllocation.enabled false
spark.dynamicAllocation.minExecutors 1
spark.dynamicAllocation.maxExecutors 18
spark.dynamicAllocation.executorIdleTimeout 120