Question

我已经创建了一个DataFrame，该数据库要在表的Azure DataLake Gen2旁边写入/导出（需要为此创建新表）。

将来，我还需要使用新的DataFrames更新此Azure DL Gen2表。

在Azure Databricks中，我创建了一个连接Azure Databricks-> Azure DataLake以查看我的文件：

有关如何在spark / pyspark中编写它的帮助。

谢谢！

Answer 1

将数据帧从Azure Databricks Notebook写入Azure Data Lake Gen2的步骤：

第一步：使用存储帐户访问密钥直接访问

第二步：：使用DBUTILS列出存储帐户中的文件

第3步：：使用预先建立的DBFS安装点读取数据并创建数据框。

步骤4：将数据写入Azure Data Lake Gen2帐户

读取航空公司的csv文件，并将输出写入拼花格式以便于查询

希望这会有所帮助。如果您还有其他疑问，请告诉我们。

Answer 2

我建议不要使用Parquet格式写入数据，而应使用Delta格式，该格式内部使用Parquet格式，但提供ACID交易等其他功能。语法为

df.write.format("delta").save(path)