标签: apache-spark
我尝试使用spark.sql.files.maxPartitionBytes,问题是,如果我将其设置为较小的值,则Spark会将文件拆分为多个分区读取,如果我将其设置为较高的值,则Spark将从同一分区读取多个文件。 (我使用rdd()。getPartitions()对此进行了验证)
是否有一种方法可以强制Spark在1个Spark分区中的1个Parquet文件中读取一个文件?
谢谢