每个实木复合地板文件创建1个Spark分区

时间:2019-06-24 21:41:18

标签: apache-spark

  1. 我在S3上有很多实木复合地板文件(文件大小从100MB到400MB)
  2. 目标是一次处理一个文件,只有一个Spark分区处理一个文件。

我尝试使用spark.sql.files.maxPartitionBytes,问题是,如果我将其设置为较小的值,则Spark会将文件拆分为多个分区读取,如果我将其设置为较高的值,则Spark将从同一分区读取多个文件。 (我使用rdd()。getPartitions()对此进行了验证)

是否有一种方法可以强制Spark在1个Spark分区中的1个Parquet文件中读取一个文件?

谢谢

0 个答案:

没有答案