在数据流中加入两个或多个PCollection *而不使用*键

时间:2017-12-08 23:06:02

标签: google-cloud-dataflow apache-beam dataflow

假设    PCollection p1有{1,2,3}    PCollection p2具有{A,B,C}

我想生成PCollection,其中包含来自p1和p2的对 {A,1},{B,2},{C,3}

我将不胜感激。

谢谢, ķ

1 个答案:

答案 0 :(得分:0)

我想我建议使用stateful ParDo为每个PCollection的元素分配序号1,2,...,然后使用CoGroupByKey执行加入。这意味着每个PCollection将使用1名工作人员顺序处理,但我目前无法想出更有效地实施此特定操作的方法。