使用Python从API获取数据并使用Azure Data Factory加载到Azure SQL数据仓库中

时间:2017-12-13 14:09:34

标签: python azure azure-data-factory

我想在Azure中创建一个包含多个来源信息的数据仓库。输入数据来自不同的APIS,我想使用python访问它们,输出应该存储到Warehouse中。这个过程应该每天更新。

我已阅读Azure的大量文档,但我无法理解如何设计此过程。

第一个问题是:在哪里创建python进程,从不同的API收集数据?在Azure数据工厂的管道中还是其他地方?

此致

3 个答案:

答案 0 :(得分:0)

使用Azure Data Factory,您可以使用内置连接器连接到源:https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-overview

通过在ADF中使用V2服务,您可以安排管道在您所需的时间每天触发。

答案 1 :(得分:0)

使用python,您可以使用API​​来创建,配置和计划数据工厂管道。没有运行任何python代码,数据工厂只配置了json文件。 Python库只会帮助您使用您熟悉的语言创建这些json文件,对于.net,powershell和所有其他支持的语言也是如此。最终结果总是一堆json文件。

我不知道你的案例的具体细节,但一般来说你需要创建链接服务,数据集(将使用这些链接服务)和管道,这些管道将是一组逻辑活动(将使用这些数据集) )。

如果您使用的是ADFv1,则可以在数据集的属性中配置计划,并且您不需要网关,因为您没有使用本地数据。如果您使用的是ADFv2,则需要Azure集成运行时(类型"托管"),您可以使用触发器配置计划。

我希望我能够澄清一些这些概念。

干杯。

答案 2 :(得分:0)

您有两种选择:

  1. 丢弃您的Python代码并定义HTTP Connector来描述您的数据移动。您可能还需要为"转换"进行后续转换活动。你的ETL的一步。
  2. 将您的Python代码嵌入custom activity run by Azure Batch。这是一个非常难以解决的错误解决方案。
  3. 在你的位置,我会使用HTTP连接器。