我如何知道镶木地板文件的块大小?

时间:2020-08-25 23:43:35

标签: apache-spark pyspark parquet

我在pyspark中将文件输出为实木复合地板。我怎么知道镶木地板文件的块大小?

1 个答案:

答案 0 :(得分:1)

您应该使用较小的块大小来编写镶木地板文件。默认值为每块128Mb,但可以通过在编写器中设置parquet.block.size配置来配置。 如果要深入了解细节,ParquetOuputFormat的来源是here。 块大小是您可以从逻辑上可读的木地板文件中读取的最小数据量(由于木地板是柱状的,因此不能仅按行拆分或类似这样的琐碎操作),因此您不能拥有更多的读取线程比输入块多。