我有一个没有错误完成的spark应用程序,但是一旦完成并保存了所有输出并且进程终止,Spark独立集群主进程就会变成CPU占用,使用16个CPU的全部时间几个小时,以及Web用户界面变得反应迟钝。我不知道它可以做什么,是否有一些复杂的清理步骤?
更多细节:
我有一个Spark独立集群(27个工作人员/节点),我已经成功提交了一段时间的工作。我最近扩大了我的应用程序的规模,最大的现在需要3.5个小时,使用超过27个工作人员的100个核心,并且每个工作人员在工作过程中有〜几十GB的随机读/写。否则,应用程序与之前成功运行的较小作业没有什么不同。
答案 0 :(得分:0)
这是Spark独立群集的一个已知问题,是由大型应用程序创建的大量事件日志引起的。您可以在下面的问题跟踪链接中阅读更多内容。
https://issues.apache.org/jira/browse/SPARK-12299
目前,最好的解决方法是禁用大型作业的事件记录。