azure - ADF映射数据流-重用单个运行的Spark集群以并行执行映射数据流

时间：2020-08-28 13:08:34

标签： azure apache-spark azure-data-factory

我们在ADF中有一个复杂的ETL，该ETL运行具有数据流活动的多个管道，以便根据表依赖性在数据仓库中加载多个表。

由于运行具有相互依赖关系的多个管道，因此执行了一些数据流，这些数据流是一些顺序运行和一些并行运行的混合。看起来每个并行运行的数据流都会旋转一个新的Spark集群，这导致我们的每日ETL运行成本急剧上升！

理想情况下，如果可能的话，我们希望将火花集群重新用于所有并行数据流执行。有没有一种方法可以指定为并行数据流执行创建的火花群集的数量上限？

我们已经启用TTL 10分钟了。

答案 0 :(得分：1)

启用TTL后，请确保依次使用该Azure IR执行数据流，以免启动多个群集池。

要并行执行，请使用不带TTL的Azure IR。

我们正在研究您上面提到的“最大并发”功能，希望尽快实现。