优化Apache Beam / DataFlow中的重复转换

时间:2018-07-06 04:53:38

标签: google-cloud-dataflow apache-beam

我想知道Apache Beam.Google DataFlow是否足够聪明以识别数据流图中的重复转换并仅运行一次。例如,如果我有2个分支:

  • p | GroupByKey()| FlatMap(...)
  • p | Combiners.Top.PerKey(...)| FlatMap(...)
两者都将在引擎盖下按键对元素进行分组。执行引擎是否会识别GroupByKey()在两种情况下都具有相同的输入,并且只运行一次?还是我需要手动确保GroupByKey()在这种情况下继续使用它的所有分支?

1 个答案:

答案 0 :(得分:2)

您可能已经推断出,这种行为取决于跑步者。每个跑步者都实现自己的优化逻辑。

  • 数据流运行器当前不支持此优化。