Azure数据工厂-增量加载到Azure数据湖

时间:2020-03-25 22:09:00

标签: azure-data-factory azure-databricks delta-lake azure-data-lake-gen2

我想为源系统提供增量加载模式,其中没有审计字段,该字段说明记录的最后修改时间。示例:上次修改时间(日期时间)

但是这些表是用主键和唯一键定义的,只要属性有任何更改,应用程序就会使用它们来更新记录。

现在的问题是,我如何才能每天确定Delta的数量,然后使用Azure Data Factory / Databricks将其加载到Azure Data Lake中。

我应该分阶段处理当日和当日-1的全部数据,并通过使用哈希值确定增量吗?

还是有更好的方法?

1 个答案:

答案 0 :(得分:0)

由于该数据库的大小不大,因此最终创建了管道,在管道中将完整的数据集加载到sql登台,然后写回Data Lake到初始加载数据集的相关位置,然后将sql登台提升到PreviousDay模式。

对于下一个增量,它将完整的数据集读入sql阶段,然后与PreviousDays数据集进行比较,获取更改的记录,并将Data Lake写入相关的增量位置。然后删除现有的PreviousDay数据集,并将Staging数据集升级为previousDay,以便为下一个增量做好准备。