如何将火花中的pandas数据帧保存到亚马逊s3中?

时间:2016-01-21 21:53:57

标签: python pandas amazon-s3 pyspark

我想将pandas dataframe保存到s3存储桶中。 我试过下面已经有人回答了。但是,它只是给我一个错误,AttributeError: 'DataFrame' object has no attribute 'write'

df.write.format("com.databricks.spark.csv").save("s3n://id:pw@bucket")

有什么想法吗?提前谢谢。

2 个答案:

答案 0 :(得分:1)

一种方法是将Pandas数据帧转换为spark数据帧,然后您可以使用spark csv包来保存文件。

df.write.format("com.databricks.spark.csv").save("s3n://id:pw@bucket")

您可以看到此answer。已经提供了类似的解决方案。

答案 1 :(得分:0)

您使用的是1.3版本还是更早版本?在这种情况下,您只需直接在数据框上调用save,即

df.save(path="s3n://id:pw@bucket")