关于一组数据文件,我需要使两个ADLS Gen1位置保持同步。
使用“复制活动”可以重新复制所有数据文件,而不仅仅是新的/丢失的文件。
我要保留的文件夹/文件结构是yyyy / mm /,而不是使用“合并”选项创建单个文件。但是,使用“保留层次结构”确实可以按预期维护文件名层次结构,它会复制所有数据/文件,而不是仅复制新数据/文件。
这是有问题的,因为随着时间的推移,它可能会通过复制单个文件来复制几个MB / Gb,这将导致在重新复制所有旧数据时复制Tb。
我要在这里满足的要求是降低每日/每月数据传输,计算和GDPR /隐私权的成本的组合。
我已经有一个可以在各个文件上设置失效日期的基础设施,尽管如果没有单个文件,我将不得不重新处理数据本身以使各个行过期。
我只能使用ADLS Gen1,因为它是唯一的即付即用计算选项(ADLS Analytics)
我希望有一种方法可以将新的/丢失的文件仅从A复制到B,否则我将不得不合并(假定仅复制新数据?)并重新处理。
否则,我将不得不诉诸更激烈的选择