我有两个带有公共键列的数据集,我想执行左连接操作。 apache beam中是否有任何相应的函数在apache beam中执行左连接操作?
答案 0 :(得分:2)
Beam Java SDK中有一个小型连接库,请查看该实现是否适用于您:org.apache.beam.sdk.extensions.joinlibrary.Join
,source
更新
您可以使用CoGroupByKey
类似的方法自行实施:{
- 将PCollections
放入KeyedPCollectionTuple
;
- 应用CoGroupByKey
,每个窗口每个键对PCollections
个元素进行分组;
- 应用ParDo
循环遍历CoGroupByKey
的结果,一次加入左右记录,并发出结果(请参阅CoGroupByKey
example in the Beam Programming Guide);