如何扩展Azure数据工厂数据流?

时间:2020-01-10 20:14:35

标签: azure azure-data-factory azure-data-lake azure-data-factory-2 azure-databricks

我能够使用ADF UI轻松地为一张表设置SCD Type 2流程,但是我没有一种简单的方法可以扩展到我们拥有的数千个数据源。我没有看到任何Java API可以让我编写ADF Pipelines / Dataflow并动态配置和触发它们。没有UI允许从特定数据库等中选择哪些表。我查看了Azure Datalake Gen 2,Azure Databricks等。我没有看到Azure中的任何工具可以让我们替换UI驱动的Data Lake提取过程。建在房子里。我缺少什么吗?

另一方面,我们有一个旧的Data Lake应用程序,该应用程序从数以千计的数据源(如数据库,日志文件,Web应用程序等)中提取数据,并使用Java,Spark, Kafka等。我们正在评估Azure Active Data Factory来替代它。

2 个答案:

答案 0 :(得分:0)

ADF中内置了一个通用SCD(类型1,但您可以改装为类型2)示例。转到新建>模板中的管道>使用数据流进行转换>通用SCD类型1。

此模式概述如下:https://techcommunity.microsoft.com/t5/azure-data-factory/create-generic-scd-pattern-in-adf-mapping-data-flows/ba-p/918519

您还可以在管道中遍历Foreach的无模式表数据集,在每次迭代中调用相同的数据流。

最后,如果您仍然希望以编程方式标记数据流,则.NET和PowerShell SDK列在联机Azure文档的参考部分。

答案 1 :(得分:0)

您可以利用Java的REST API使用代码来构建管道。

https://docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-rest-api