Question

我有一个非常大的pyspark数据帧。所以我想对它的子集执行预处理，然后将它们存储到hdfs。后来我想阅读所有这些并合并在一起。谢谢。

Answer 1

将DataFrame写入HDFS（Spark 1.6）。

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

部分格式选项包括csv，parquet，json等。

从HDFS（Spark 1.6）读取DataFrame。

sqlContext.read.format('parquet').load('/path/to/file')

格式方法采用parquet，csv，json等参数。