我正在研究用例,其中有两个不受限制的流,并希望在这些流上进行左连接。 使用5分钟的固定大小的窗口,没有允许的延迟。对于连接,我正在使用Java扩展连接库。但是加入后,它不会发出结果。 相同的代码:
PCollection<KV<String, KV<GenericRecord, GenericRecord>>> joinedDatasets = Join.leftOuterJoin(aById, bById, GenericRecord);
PCollection<GenericRecord> result = joinedDatasets.apply(ParDo.of(new DoFn<KV<String, KV<GenericRecord, GenericRecord>>, GenericRecord>() {
@ProcessElement
public void processElement(@Element KV<String, KV<GenericRecord, GenericRecord>> element, OutputReceiver<GenericRecord> out) {
LogHelper.info(element.getKey());
//some processing logic
}
}));
我尝试过cogrpbykey,但行为相同。在Directrunner上运行作业