数据流工作:组合功能

时间:2016-10-10 08:37:40

标签: google-cloud-dataflow

我有多个自定义组合功能,我称之为:

e.g。我有数据'以前在管道中计算过。

\Windows\System32

在上述情况下,管道如何工作?是'数据'一次又一次评估?或者cd1 = data | customCombFn1() cd2 = data | customCombFn2() cd3 = data | customCombFn3() cd1cd2被评估为管道的副产品?

1 个答案:

答案 0 :(得分:3)

您的data对象是PCollection。在PCollection上应用组合转换会创建另一个PCollection,通常包含更少的元素。

你称之为“重新评估”。 PCollection通常在多个工作程序上生成,并立即由需要它的转换使用。如果在给定的情况下不可能,则通常会存储PCollection以便稍后处理。

一般而言,Cloud Dataflow服务会自动将优化应用于用户的管道。在大多数情况下,包括这个,它允许用户专注于他们的业务逻辑而不是底层执行考虑。