我有一个spark作业,可以使用Insert Overwrite statement
Spark作业在15分钟内将数据快速加载到S3中的临时目录(〜/ .hive-***)。但是,将数据从temp目录移至目标路径的速度非常慢,将数据从temp目录移至目标路径需要40分钟以上。
我设置了选项mapreduce.fileoutputcommitter.algorithm.version=2
(默认为1),但仍然看不到任何变化。
是否可以通过Spark提高蜂巢Insert overwrite
查询的性能?
此外,我看到具有太多现有分区的hive表的这种行为。即,数据相对较快地加载到现有分区较少的表中。
一些其他详细信息:
Table is a dynamic partitioned table.
Spark version - 2.3.0
Hive version - 2.3.2-amzn-2
Hadoop version - 2.8.3-amzn-0