指定Parquet属性pyspark

时间:2016-07-07 02:52:31

标签: python apache-spark pyspark parquet

如何在PySpark中指定Parquet Block Size和Page Size?我到处搜索但找不到函数调用或导入库的任何文档。

1 个答案:

答案 0 :(得分:4)

根据spark-user archives

sc.hadoopConfiguration.setInt("dfs.blocksize", some_value)
sc.hadoopConfiguration.setInt("parquet.block.size", some_value)

所以在PySpark中

sc._jsc.hadoopConfiguration().setInt("dfs.blocksize", some_value)
sc._jsc.hadoopConfiguration().setInt("parquet.block.size", some_value)