在数据工厂中创建 Azure Batch 活动

时间:2021-06-18 09:22:25

标签: azure azure-data-factory azure-data-factory-2 azure-batch

我想在我的数据工厂管道中创建一个 Azure Batch 活动,我设置了一个触发器来检查过去 24 小时内是否有新的“上次修改”的 blob。
在处理大文件时,我想在同一台机器上同时利用 Azure Batch 和多进程 2 blob 的强大功能。
这是我到目前为止所做的管道:
enter image description here
第二个活动通过创建 {container name}/{blob} 的列表变量来操作前一个活动的输出。
如何将我的 blob 地址分成小批量,以便我可以将它们提供给下一个批处理活动?
谢谢

1 个答案:

答案 0 :(得分:1)

默认情况下,“ForEach”活动并行运行,因此默认情况下它将启动至少 20 个线程,最多 50 个线程,具体取决于您的输入进程。确保 ForEach 上的“顺序”框未选中

ForEach in parallel mode

如果您需要分成更大的组,例如每批 3 个,每批 5 个,那么这可能会有点棘手,我会寻找例如存储过程活动、Databricks 笔记本或 Synapse Notebook 来稍微做到这一点对我来说更复杂的工作。