当我在Spark UI中单击长时间运行的作业(例如24小时)的application_id时,加载阶段需要很长时间。我不知道它是否与我的spark配置或我的部署模式客户端相关联。以下是我的spark配置的更多信息:
--master yarn \
--deploy-mode client \
--driver-memory 12g \
--executor-memory 8g \
--executor-cores 4 \
--num-executors 108 \
答案 0 :(得分:0)
UI正在驱动程序的计算机上运行。因此,如果机器耗尽RAM,则UI变得非常慢。
在这里,我看到您为驱动程序请求12GB的RAM。这是很多,如果这是机器上可用的所有内存,那么在某些时候UI变得非常慢是有意义的。此过程仅应驱动计算并在工作者之间共享。
我猜您正在收集大量数据,这通常不是一个好主意。 (见https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dont_call_collect_on_a_very_large_rdd.html)
更好的选择是将RDD写入文件或分布式数据库。