标签: dataframe pyspark data-partitioning apache-spark-1.6
假设我在pyspark中读取了一个镶木地板文件作为Dataframe,我该如何指定它必须有多少分区?
我读了这样的镶木地板文件 -
df = sqlContext.read.format('parquet').load('/path/to/file')
如何指定要使用的分区数?