将DataFrame从Azure Databricks笔记本写入Azure DataLake Gen2表

时间:2020-01-16 12:11:23

标签: azure apache-spark pyspark databricks

我已经创建了一个DataFrame,该数据库要在表的Azure DataLake Gen2旁边写入/导出(需要为此创建新表)。

将来,我还需要使用新的DataFrames更新此Azure DL Gen2表。

在Azure Databricks中,我创建了一个连接Azure Databricks-> Azure DataLake以查看我的文件:

enter image description here

有关如何在spark / pyspark中编写它的帮助。

谢谢!

2 个答案:

答案 0 :(得分:2)

将数据帧从Azure Databricks Notebook写入Azure Data Lake Gen2的步骤:

第一步:使用存储帐户访问密钥直接访问

enter image description here

第二步::使用DBUTILS列出存储帐户中的文件

enter image description here

第3步::使用预先建立的DBFS安装点读取数据并创建数据框。

enter image description here

步骤4:将数据写入Azure Data Lake Gen2帐户

读取航空公司的csv文件,并将输出写入拼花格式以便于查询

enter image description here

有关更多详细信息,请参阅“ Tutorial: Azure Data Lake Storage Gen2, Azure Databricks & Spark”。

希望这会有所帮助。如果您还有其他疑问,请告诉我们。

答案 1 :(得分:1)

我建议不要使用Parquet格式写入数据,而应使用Delta格式,该格式内部使用Parquet格式,但提供ACID交易等其他功能。语法为

df.write.format("delta").save(path)