Azure DataFactory增量BLOB副本

时间:2018-08-20 18:49:15

标签: azure azure-data-factory azure-data-factory-2

我已经建立了将数据从一个Blob存储复制到另一个Blob的管道。我希望有可能的增量副本,但还没有找到指定它的方法。原因是我想按计划运行它,并且仅复制自上次运行以来的任何新数据。

2 个答案:

答案 0 :(得分:0)

我假设“增量”是指将新的blob添加到容器中。没有简单的方法将更改复制到特定Blob。

因此,按计划运行时这不可能自动实现,因为“新”不是计划程序可以知道的。

相反,您可以使用Blob创建的事件触发器,然后将结果(Blob名称)缓存在其他位置。然后,当您的计划运行时,它可以读取这些名称并仅复制这些blob。

您有很多可供缓存的选项。一个SQL表,另一个blob。

注意:此处的复杂之处在于尝试按计划执行此操作。如果您可以调整参数以仅复制每个新文件,则非常非常简单,因为您只需复制创建触发器的Blob。

另一种选择是使用触发器将创建时的blob复制到临时/临时容器,然后使用日程表将这些文件移动到最终目的地。

答案 1 :(得分:0)

  1. 如果您的Blob名称用时间戳记很好地命名,则可以按照此文档操作copy partitioned data.,可以使用copy data tool来设置管道。您可以选择翻转窗口,然后在文件路径字段中输入{year} / {month} / {day} / fileName并选择正确的模式。这将帮助您构造参数。 enter image description here
  2. 如果您的Blob名称在时间戳上不正确,则可以使用get metadata activity来检查上次修改的时间。请参考this post

事件触发器只是控制管道何时运行的一种方法。您还可以在方案中使用tumbling window triggerschedule trigger