使用Azure数据工厂(ADF)仅从Azure Data Lake存储中复制最新文件

时间:2019-02-10 19:21:01

标签: azure copy azure-data-lake azure-data-factory-2

我正在尝试从azure数据湖存储中复制数据,执行一些处理,然后使用azure数据工厂将其移动到同一数据湖中的其他文件夹中。源数据按年,月和日组织。我只想每天复制最新文件并继续替换它。如何使用ADF执行此操作?我看到一些有关使用切片开始和结束日期的答案,但这仍然意味着在JSON文件中提供日期。如何自动更改这些日期?

1 个答案:

答案 0 :(得分:0)

假设您正在使用ADFv2。

  

我看到一些有关使用切片开始和结束日期的答案,但是   仍然意味着在JSON文件中提供日期。我该如何改变   那些日期自动吗?

那是要走的路,它是自动的。您不必在管道中提供日期。您对日期进行参数化,然后将管道附加到 Tumbling窗口触发器,并使用触发器系统变量@trigger()。outputs.windowStartTime。所以现在触发器将给出日期。

然后,您可以每24小时安排一次触发器,以便您的滚动窗口触发器将通过@trigger()。outputs.windowStartTime例如2019/02/13(您可以根据自己的datalake结构来格式化日期-ADF中提供的格式选项)到管道活动中,并要求该活动从azuredatalake / 2019/02/13 / file.txt中读取

遵循doc这个想法。