标签: apache-flink apache-beam flink-streaming apache-beam-io
我目前正在使用Apache Beam和Flink作为执行引擎开发管道。作为流程的一部分,我从Kafka读取数据并执行一系列涉及连接,聚合以及查找外部数据库的转换。
我们的想法是,当我们执行聚合时,我们希望与Flink具有更高的并行性,但最终会合并数据并且有更少数量的进程写入数据库,以便目标数据库可以处理它(例如说我想要在聚合时具有40的并行度,但在写入目标DB时仅为10)。
我们有什么方法可以在Beam中做到这一点吗?