我想在Azure中创建一个包含多个来源信息的数据仓库。输入数据来自不同的APIS,我想使用python访问它们,输出应该存储到Warehouse中。这个过程应该每天更新。
我已阅读Azure的大量文档,但我无法理解如何设计此过程。
第一个问题是:在哪里创建python进程,从不同的API收集数据?在Azure数据工厂的管道中还是其他地方?
此致
答案 0 :(得分:0)
使用Azure Data Factory,您可以使用内置连接器连接到源:https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-overview
通过在ADF中使用V2服务,您可以安排管道在您所需的时间每天触发。
答案 1 :(得分:0)
使用python,您可以使用API来创建,配置和计划数据工厂管道。没有运行任何python代码,数据工厂只配置了json文件。 Python库只会帮助您使用您熟悉的语言创建这些json文件,对于.net,powershell和所有其他支持的语言也是如此。最终结果总是一堆json文件。
我不知道你的案例的具体细节,但一般来说你需要创建链接服务,数据集(将使用这些链接服务)和管道,这些管道将是一组逻辑活动(将使用这些数据集) )。
如果您使用的是ADFv1,则可以在数据集的属性中配置计划,并且您不需要网关,因为您没有使用本地数据。如果您使用的是ADFv2,则需要Azure集成运行时(类型"托管"),您可以使用触发器配置计划。
我希望我能够澄清一些这些概念。
干杯。
答案 2 :(得分:0)
您有两种选择:
在你的位置,我会使用HTTP连接器。