应用错误收集

读取实木复合地板时read.partitions optin有什么用

时间：2019-12-17 08:22:20

标签： apache-spark pyspark parquet

我发现下面的代码段可以使用pyspark读取木地板文件。

df = spark.read.format('parquet').option("read.partitions", "6").load(pq_loc)

但是我找不到关于option("read.partitions", "6")的任何参考。该选项的用途是什么？哪里有找到从实木复合地板上读取的所有可用选项的地方？

1 个答案:

答案 0 :(得分：0)

您可以参考以下文档，以使用pyspark读取parquet文件。

https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

option通常用于指定您想要读取文件的方式，此处"read.partitions", "6"意味着您要分6部分读取文件。