在写入DB时控制ParDo变换中的并行性

时间:2018-05-15 03:09:36

标签: apache-flink apache-beam flink-streaming apache-beam-io

我目前正在使用Apache Beam和Flink作为执行引擎开发管道。作为流程的一部分,我从Kafka读取数据并执行一系列涉及连接,聚合以及查找外部数据库的转换。

我们的想法是,当我们执行聚合时,我们希望与Flink具有更高的并行性,但最终会合并数据并且有更少数量的进程写入数据库,以便目标数据库可以处理它(例如说我想要在聚合时具有40的并行度,但在写入目标DB时仅为10)。

我们有什么方法可以在Beam中做到这一点吗?

0 个答案:

没有答案