我已经创建了一个DataFrame,该数据库要在表的Azure DataLake Gen2旁边写入/导出(需要为此创建新表)。
将来,我还需要使用新的DataFrames更新此Azure DL Gen2表。
在Azure Databricks中,我创建了一个连接Azure Databricks-> Azure DataLake以查看我的文件:
有关如何在spark / pyspark中编写它的帮助。
谢谢!
答案 0 :(得分:2)
将数据帧从Azure Databricks Notebook写入Azure Data Lake Gen2的步骤:
第一步:使用存储帐户访问密钥直接访问
第二步::使用DBUTILS列出存储帐户中的文件
第3步::使用预先建立的DBFS安装点读取数据并创建数据框。
步骤4:将数据写入Azure Data Lake Gen2帐户
读取航空公司的csv文件,并将输出写入拼花格式以便于查询
有关更多详细信息,请参阅“ Tutorial: Azure Data Lake Storage Gen2, Azure Databricks & Spark”。
希望这会有所帮助。如果您还有其他疑问,请告诉我们。
答案 1 :(得分:1)
我建议不要使用Parquet格式写入数据,而应使用Delta格式,该格式内部使用Parquet格式,但提供ACID交易等其他功能。语法为
df.write.format("delta").save(path)