应用错误收集

火花|生成太多零件文件

时间：2018-09-12 21:56:51

标签： apache-spark hive apache-spark-sql informatica

我们有一个HIVE目标，可作为木地板存放。 Informatica BDM作业被配置为使用spark作为执行引擎，以将数据加载到HIVE目标。

我们注意到，在HDFS的一个分区中生成了大约2000个零件文件。这种行为会影响HIVE的表现。

是否有其他选择？

输入文件大小仅为12MB

块大小为128MB

关于， Sridar Venkatesan

2 个答案:

答案 0 :(得分：0)

根本原因是由于spark.sql.shuffle.partitions

答案 1 :(得分：0)

需要设置spark.sql.shuffle.partitions=1 这样它就不会将文件拆分为多个分区文件。这也适用于大文件