了解Azure数据工厂管道中的开始和结束时间

时间:2016-03-07 19:02:48

标签: azure azure-data-factory

我在Azure“数据工厂”中设置管道,目的是从存储中获取平面文件并将它们加载到Azure SQL DB中的表中。

此管道的模板指定我需要一个开始和结束时间,the tutorial表示设置为1天。

我正在努力理解这一点。如果它是Linux中的CRON作业或Windows Server中的计划任务,那么我只是告诉它何时开始(即每天早上6点)并且需要很长时间才能完成。

这引出了几个相关的问题:

  • 为什么我需要指定结束时间?
  • 如果我不知道运行需要多长时间怎么办?
  • 如果我将来设置得太远,我是否会冒着数据管道未及时完成的​​风险?
  • 如果我设置得太快,管道会断裂吗?
  • 为什么硬编码为日期而不是频率(即表示使用此格式 - “2014-10-14T16:32:41Z”)

我发现a prior question对于如何进行频率而不是硬编码日期略有说明,但我的问题仍然无法解决。

2 个答案:

答案 0 :(得分:4)

1天时间表只是一个示例,突出显示如果频率设置为每小时1天,您将需要24个活动窗口的概念,如示例所示。

为什么我需要指定结束时间?

如果您希望无限期地运行管道,则无需指定结束时间。但是,您可能有业务原因设置结束时间,例如与每年的业务周期一致。整个管道开始和结束时间适用于其中的活动集合。活动将根据您为数据集的活动和可用性设置的频率(每小时,每天等)运行。您还可以设置活动的开始时间,或者偏移或延迟它们(例如,如果您想要处理昨天的数据),或者设置过去的开始日期以回填数据。

为什么硬编码为日期而不是频率?

管道开始和结束是一个日期而不是频率的原因是因为它是管道处于活动状态的整个日期间隔,并且各个处理活动处理它们运行的​​频率和时间。

如果我不知道运行需要多长时间怎么办?

一旦活动开始,他们将完成。如果它们超过结束日期,那么管道就不会启动新的活动。

如果我将来设置得太远,我是否会冒着数据管道未及时完成的​​风险?

不,及时完成只与您的群集大小,数据量和并发设置有关。

如果我过早设置,管道是否会中断?

见上文

我们提供这种日程安排的复杂性,以便您可以更灵活地协调多个服务,同时让ADF管理云资源,而不仅仅是启动cron作业。我们的文档https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

中有关于日程安排的更多细微信息

答案 1 :(得分:0)

为什么我需要指定结束时间?

在ADF1中,如果要指定开始时间,则必须指定结束时间。 如果你没有指定开始和结束时间,那很好,你将能够部署管道,但管道中的活动不会触发。