火花|生成太多零件文件

时间:2018-09-12 21:56:51

标签: apache-spark hive apache-spark-sql informatica

我们有一个HIVE目标,可作为木地板存放。 Informatica BDM作业被配置为使用spark作为执行引擎,以将数据加载到HIVE目标。

我们注意到,在HDFS的一个分区中生成了大约2000个零件文件。这种行为会影响HIVE的表现。

是否有其他选择?

输入文件大小仅为12MB

块大小为128MB

关于, Sridar Venkatesan

2 个答案:

答案 0 :(得分:0)

根本原因是由于spark.sql.shuffle.partitions

答案 1 :(得分:0)

需要设置spark.sql.shuffle.partitions=1 这样它就不会将文件拆分为多个分区文件。 这也适用于大文件