Spark SaveAsTable需要很多时间

时间:2018-09-20 21:06:21

标签: apache-spark

我试图使用Spark在不同的配置单元表上执行很少的连接,并尝试将最终表保存到配置单元中。

问题在于SaveAsTable阶段几乎需要12 minutes。表格有16 million row

有两个执行程序,共创建了64个任务。问题在于所有任务处理大约 17 MB ,但是最后一个任务处理了 250 MB数据。

我试图重新分区到264,但是它在上一个阶段之后创建了一个新阶段。这很奇怪。

Please check the picture here

0 个答案:

没有答案