我发现下面的代码段可以使用pyspark读取木地板文件。
df = spark.read.format('parquet').option("read.partitions", "6").load(pq_loc)
但是我找不到关于option("read.partitions", "6")
的任何参考。该选项的用途是什么?哪里有找到从实木复合地板上读取的所有可用选项的地方?
答案 0 :(得分:0)
您可以参考以下文档,以使用pyspark读取parquet
文件。
https://spark.apache.org/docs/latest/sql-data-sources-parquet.html
option
通常用于指定您想要读取文件的方式,此处"read.partitions", "6"
意味着您要分6部分读取文件。