如何将pyspark数据帧写入HDFS,然后如何将其读回数据帧?

时间:2017-05-31 16:51:48

标签: python hadoop pyspark hdfs spark-dataframe

我有一个非常大的pyspark数据帧。所以我想对它的子集执行预处理,然后将它们存储到hdfs。后来我想阅读所有这些并合并在一起。谢谢。

1 个答案:

答案 0 :(得分:7)

  • 将DataFrame写入HDFS(Spark 1.6)。

    df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
    

部分格式选项包括csvparquetjson等。

  • 从HDFS(Spark 1.6)读取DataFrame。

    sqlContext.read.format('parquet').load('/path/to/file') 
    

格式方法采用parquetcsvjson等参数。