使用数据工厂附加到 azure 数据湖中的文件

时间:2021-03-25 17:13:34

标签: azure azure-data-factory azure-data-factory-2 azure-data-lake-gen2

我在使用数据工厂将数据附加到 azure 数据湖中的文件时遇到问题。 我正在尝试从 MS Graph API 获取数据,并且我能够获取数据并将其复制到单个 API 调用中,使用“复制数据”功能将响应推送到数据湖,但如果我想进行多次调用在那里我得到一个响应,然后将这些响应附加到一个文件中,我不知道该怎么做。我认为“复制数据”活动不适合它。

一个例子: 获取租户中所有组的 API:

https://graph.microsoft.com/v1.0/Groups/

用于获取与群组关联的所有成员的 API:

https://graph.microsoft.com/v1.0/groups/"GroupID"/owners

“组 ID”来自顶级 API 调用。**

我能够构建一个循环并正确执行调用。 它只是在我不知所措的情况下附加第二次调用的结果。我不认为为每个组创建一个新文件是正确的方法。

1 个答案:

答案 0 :(得分:0)

我认为您需要解决几个问题。首先,标准 Blob 不支持追加操作。为此,您需要一个 AppendBlob。第二个问题是 ADF 不支持 AppendBlob。

这里是 a question,我在这里讨论复制活动和 AppendBlob。

这里是 another answer(不是我的),它采用了一种有趣的方法,使用本机 REST API 来附加 blob。

另一种选择是让进程每次运行创建一个新文件。全部创建完成后,您可以使用 DataFlow 将它们折叠到一个文件中。