azure - 使用数据工厂附加到 azure 数据湖中的文件

使用数据工厂附加到 azure 数据湖中的文件

时间：2021-03-25 17:13:34

标签： azure azure-data-factory azure-data-factory-2 azure-data-lake-gen2

我在使用数据工厂将数据附加到 azure 数据湖中的文件时遇到问题。我正在尝试从 MS Graph API 获取数据，并且我能够获取数据并将其复制到单个 API 调用中，使用“复制数据”功能将响应推送到数据湖，但如果我想进行多次调用在那里我得到一个响应，然后将这些响应附加到一个文件中，我不知道该怎么做。我认为“复制数据”活动不适合它。

一个例子：获取租户中所有组的 API：

https://graph.microsoft.com/v1.0/Groups/

用于获取与群组关联的所有成员的 API：

https://graph.microsoft.com/v1.0/groups/"GroupID"/owners

“组 ID”来自顶级 API 调用。**

我能够构建一个循环并正确执行调用。它只是在我不知所措的情况下附加第二次调用的结果。我不认为为每个组创建一个新文件是正确的方法。

1 个答案:

答案 0 :(得分：0)

我认为您需要解决几个问题。首先，标准 Blob 不支持追加操作。为此，您需要一个 AppendBlob。第二个问题是 ADF 不支持 AppendBlob。

这里是 a question，我在这里讨论复制活动和 AppendBlob。

这里是 another answer（不是我的），它采用了一种有趣的方法，使用本机 REST API 来附加 blob。

另一种选择是让进程每次运行创建一个新文件。全部创建完成后，您可以使用 DataFlow 将它们折叠到一个文件中。