标签: apache-spark
我试图使用Spark在不同的配置单元表上执行很少的连接,并尝试将最终表保存到配置单元中。
问题在于SaveAsTable阶段几乎需要12 minutes。表格有16 million row。
12 minutes
16 million row
有两个执行程序,共创建了64个任务。问题在于所有任务处理大约 17 MB ,但是最后一个任务处理了 250 MB数据。
我试图重新分区到264,但是它在上一个阶段之后创建了一个新阶段。这很奇怪。