应用错误收集

时间：2016-06-08 20:57:32

标签： apache-spark

我正在一个独立模式下对单个执行程序执行一个spark作业，该模式按预期运行但总是在最后停留12分钟。执行器和驱动程序docker容器在这段时间内基本上都是空闲的。在这里，您可以看到作业和日志：

根据我在WebUI中看到的内容，我打印出工作完成后12分钟发生的统计数据......任何想法可能是什么原因？

需要20分钟而不是8 ...

在最初的8分钟后，nload显示最小上传/下载流量，top显示驱动程序容器中最小3-5％的CPU负载。除此之外，其他一切都闲着......

答案 0 :(得分：1)

事实证明，额外的12分钟用于将s3上的hadoop _temporary文件合并到目标文件上。即使从s3下载输入文件执行70 Mbit / s，下载和上传的性能也不会超过3 MBits / s，效率非常低。

换句话说，rdd.saveAsHadoopFile("s3a:// ...)效率非常低，应该只用于少量数据......