从pyspark插入覆盖到配置单元分区表(指向s3)太慢

时间:2018-11-02 06:48:34

标签: amazon-s3 hive pyspark

我有一个spark作业,可以使用Insert Overwrite statement

将数据插入到配置单元分区表中

Spark作业在15分钟内将数据快速加载到S3中的临时目录(〜/ .hive-***)。但是,将数据从temp目录移至目标路径的速度非常慢,将数据从temp目录移至目标路径需要40分钟以上。

我设置了选项mapreduce.fileoutputcommitter.algorithm.version=2(默认为1),但仍然看不到任何变化。

是否可以通过Spark提高蜂巢Insert overwrite查询的性能?

此外,我看到具有太多现有分区的hive表的这种行为。即,数据相对较快地加载到现有分区较少的表中。

一些其他详细信息:

Table is a dynamic partitioned table. 
Spark version - 2.3.0
Hive version - 2.3.2-amzn-2
Hadoop version - 2.8.3-amzn-0

0 个答案:

没有答案