通过将增量文件源指定为ADF中的拼花数据集,我们能够读取文件。尽管这会读取增量文件,但最终将读取增量文件中数据的所有版本/快照,而不是专门获取最新版本的增量数据。
这里有一个类似的问题-Is it possible to connect to databricks deltalake tables from adf
但是,我希望从ADLS Gen2位置读取增量文件。感谢有关此的任何指导。
答案 0 :(得分:3)
我认为您不像今天读取Parquet文件那样容易,因为Delta Lake文件基本上是事务日志文件+ Parquet格式的快照。除非您每次从Delta Lake目录中读取前都进行VACUUM操作,否则您将不得不像观察到的那样准备好快照数据。
Delta Lake文件在Databricks之外的播放效果不是很好。
在我们的数据管道中,我们通常有一个Databricks笔记本,可在临时位置将数据从Delta Lake格式导出为常规Parquet格式。我们让ADF读取Parquet文件并在完成后进行清理。根据您的数据大小和使用方式,这可能是您的选择,也可能不是。
答案 1 :(得分:1)
时间已经过去,现在ADF Delta对Data Flow的支持正在预览中……希望它能尽快成为ADF本机。 https://docs.microsoft.com/en-us/azure/data-factory/format-delta