从头算图:通过复制

时间:2018-08-07 12:34:43

标签: bigdata partitioning ab-initio

我在问自己一个关于 假设我有一个流F,它被复制了X次。 然后,所有复制的流都在同一键上联接,但每次具有不同的数据集。

我希望联接以并行布局运行。对于这种特殊情况,我是否需要在“按键分区”组件上使用X倍时间,还是只能在复制输入上放一个(而不是每个复制输出放1个)?

TLDR: 这是图吗 https://ibb.co/hHmk5e 相当于 https://ibb.co/i2NNJz 假设所有联接都在同一键上发生

谢谢

1 个答案:

答案 0 :(得分:2)

使用“按键复制到多个分区”。请注意检查点,如果复制后有3个检查点,请考虑删除它们,并在复制之前放置一个检查点。