Azure数据工厂仅将丢失的文件/增量从ADLS Gen1复制到ADLS Gen1

时间:2019-09-17 17:17:58

标签: azure-data-factory azure-data-lake

关于一组数据文件,我需要使两个ADLS Gen1位置保持同步。

使用“复制活动”可以重新复制所有数据文件,而不仅仅是新的/丢失的文件。

我要保留的文件夹/文件结构是yyyy / mm /,而不是使用“合并”选项创建单个文件。但是,使用“保留层次结构”确实可以按预期维护文件名层次结构,它会复制所有数据/文件,而不是仅复制新数据/文件。

这是有问题的,因为随着时间的推移,它可能会通过复制单个文件来复制几个MB / Gb,这将导致在重新复制所有旧数据时复制Tb。

我要在这里满足的要求是降低每日/每月数据传输,计算和GDPR /隐私权的成本的组合。

我已经有一个可以在各个文件上设置失效日期的基础设施,尽管如果没有单个文件,我将不得不重新处理数据本身以使各个行过期。

我只能使用ADLS Gen1,因为它是唯一的即付即用计算选项(ADLS Analytics)

我希望有一种方法可以将新的/丢失的文件仅从A复制到B,否则我将不得不合并(假定仅复制新数据?)并重新处理。

否则,我将不得不诉诸更激烈的选择

0 个答案:

没有答案