在将数据帧写入拼花时指定最大文件大小

时间:2019-10-27 07:54:17

标签: apache-spark apache-spark-sql parquet

当我尝试将数据帧编写为镶木地板时,文件大小不一致。尽管我不想使文件统一,但我想为每个文件设置最大大小。 在对数据帧进行排序时,我无法对数据进行重新分区(据我的理解,对已排序的数据帧进行重新分区可能会扭曲顺序)。

任何帮助将不胜感激。

我遇到过maxRecordsPerFile,但是我不想限制行数,并且我可能没有关于列的完整信息(列总数及其类型)。因此,很难根据行来估计文件大小。 我也了解过镶木地板块的尺寸,但我认为这没有帮助。

0 个答案:

没有答案