火花作业在完成后挂了12分钟

时间:2016-06-08 20:57:32

标签: apache-spark

我正在一个独立模式下对单个执行程序执行一个spark作业,该模式按预期运行但总是在最后停留12分钟。执行器和驱动程序docker容器在这段时间内基本上都是空闲的。在这里,您可以看到作业和日志:

https://gist.github.com/l15k4/25588d35a6c786b4ade514739c0195ee

根据我在WebUI中看到的内容,我打印出工作完成后12分钟发生的统计数据......任何想法可能是什么原因?

需要20分钟而不是8 ...

在最初的8分钟后,nload显示最小上传/下载流量,top显示驱动程序容器中最小3-5%的CPU负载。除此之外,其他一切都闲着......

1 个答案:

答案 0 :(得分:1)

事实证明,额外的12分钟用于将s3上的hadoop _temporary文件合并到目标文件上。即使从s3下载输入文件执行70 Mbit / s,下载和上传的性能也不会超过3 MBits / s,效率非常低。

换句话说,rdd.saveAsHadoopFile("s3a:// ...)效率非常低,应该只用于少量数据......