标签: apache-spark pyspark parquet
我在pyspark中将文件输出为实木复合地板。我怎么知道镶木地板文件的块大小?
答案 0 :(得分:1)
您应该使用较小的块大小来编写镶木地板文件。默认值为每块128Mb,但可以通过在编写器中设置parquet.block.size配置来配置。 如果要深入了解细节,ParquetOuputFormat的来源是here。 块大小是您可以从逻辑上可读的木地板文件中读取的最小数据量(由于木地板是柱状的,因此不能仅按行拆分或类似这样的琐碎操作),因此您不能拥有更多的读取线程比输入块多。