将数据帧另存为csv文件(在databricks中处理)并将其上传到Azure Datalake Blob存储

时间:2019-09-27 09:25:27

标签: azure pyspark databricks azure-data-lake

我有一个csv文件存储在azure datalake存储器中,通过在我的databricks集群中安装datalake帐户将其导入到databricks中,在进行了预处理之后,我想将csv存储回相同的datalakegen2(blobstorage)帐户中。感谢您提供有关此问题的帮助。谢谢。

2 个答案:

答案 0 :(得分:0)

只需在相同的安装位置写入文件。请参阅以下示例:https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html#example-notebook

df.write.json("abfss://<file_system>@<storage-account-name>.dfs.core.windows.net/iot_devices.json")

答案 1 :(得分:0)

只需将其直接保存到Blob存储中即可。

df.write.
    format("com.databricks.spark.csv").
    option("header", "true").
    save("myfile.csv")

将文件保存到本地然后将其推入Blob毫无意义。