我们有一个HIVE目标,可作为木地板存放。 Informatica BDM作业被配置为使用spark作为执行引擎,以将数据加载到HIVE目标。
我们注意到,在HDFS的一个分区中生成了大约2000个零件文件。这种行为会影响HIVE的表现。
是否有其他选择?
输入文件大小仅为12MB
块大小为128MB
关于, Sridar Venkatesan
答案 0 :(得分:0)
根本原因是由于spark.sql.shuffle.partitions
答案 1 :(得分:0)
需要设置spark.sql.shuffle.partitions=1 这样它就不会将文件拆分为多个分区文件。 这也适用于大文件