如何使用Pyspark将数据框保存到pickle文件

时间:2018-03-29 14:44:12

标签: pyspark pickle

我必须将数据框保存到Pickle文件,但它会返回错误

o.a.s.sql.Dataset

AttributeError:' Dataframe'对象没有属性' saveAsPickleFile'

1 个答案:

答案 0 :(得分:5)

saveAsPickleFileRDD的方法,而不是数据框。

请参阅此文档: http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=pickle

所以你可以打电话:

df.rdd.saveAsPickleFile(filename)

要从文件加载,请运行:

pickleRdd = sc.pickleFile(filename).collect()
df2 = spark.createDataFrame(pickleRdd)