标签: apache-spark apache-spark-sql parquet
当我尝试将数据帧编写为镶木地板时,文件大小不一致。尽管我不想使文件统一,但我想为每个文件设置最大大小。 在对数据帧进行排序时,我无法对数据进行重新分区(据我的理解,对已排序的数据帧进行重新分区可能会扭曲顺序)。
任何帮助将不胜感激。
我遇到过maxRecordsPerFile,但是我不想限制行数,并且我可能没有关于列的完整信息(列总数及其类型)。因此,很难根据行来估计文件大小。 我也了解过镶木地板块的尺寸,但我认为这没有帮助。