基于ADF切片的调度和滞后数据

时间:2017-03-15 14:22:13

标签: azure-data-factory

我们有一个数据源,其时间轴数据由ExportDate分区,而不是由EventDate分区。因此,分区可以包含具有以下内容的数据:

  1. EventTime = ExportDate(99%)
  2. EventTime< ExportDate(~1%)
  3. 我们希望能够自动重新运行过去N天的数据切片(作为滑动窗口)。例如,让当前日期是03-15-2017,所以今天我们应该重新处理数据切片:

    current date
    03-15-2017
    
    past N days
    03-14-2017
    03-13-2017
    ...
    03-(15-N)-2017
    

    但看起来ADF在调度程序策略节点中不提供任何选项。所以我的问题是如何用ADF实现它?

1 个答案:

答案 0 :(得分:3)

我建议你有两个选择......

1)在ADF中创建自定义活动,以便为您描述的滑动窗口提取数据。您可以将参数传递给自定义活动,并使其导入一系列文件。这当然是用C#编写的,所以你几乎可以做任何你需要的东西。

这是我能想到的最好的方法,并且会为您提供所需的更具动态的灵活性。

2)使用PowerShell cmdlet覆盖给定幻灯片时段的一组时间片的状态。

例如:

Set-AzureRmDataFactorySliceStatus `
    -ResourceGroupName $ResourceGroup `
    -DataFactoryName $ADFName `
    -DatasetName "YourDataSetName" `
    -StartDateTime 2017-03-01 ` #start, pass as param to be dynamic
    -EndDateTime 2017-03-15 `   #end, pass as param to be dynamic
    -Status "Waiting" ` #Waiting to rerun
    -UpdateType "Individual"

然后,您可以使用Azure自动化触发此操作。不太理想,但在ADF提供更全面的时间安排之前,现在可以解决这个问题。

我很欣赏这两种选择都不理想。

希望这有帮助。