左联接查询无结果

时间:2020-08-04 12:36:51

标签: java apache-spark spark-streaming apache-pulsar

我对左联接有问题,似乎无法正常工作。对于内部连接来说还可以。我正在使用流式脉冲星火花连接器。

Dataset datasetPerson = ...
Dataset datasetPersonWithWt = datasetPerson.withWatermark("__eventTime", "20 seconds").as("per");
Dataset datasetPhone = ...
Dataset datasetPhoneWithWt = datasetPolicy.withWatermark("__eventTime", "20 seconds").as("ph");

Dataset joined = datasetPersonWithWt.join(
   datasetPhoneWithWt,
   // functions.expr("per.__key=ph.__key"),
   functions.expr("per.__key=ph.__key and ph.__eventTime >= per.__eventTime - interval 20 seconds and ph.__eventTime <= per.__eventTime + interval 20 seconds"),
"left");

查询有什么问题?

还想知道,连接器以排他性模式连接至脉冲星。通过火花确保所有具有相同密钥的消息都在同一工作进程中处理吗?我需要组装完整的对象并将其保存到db

0 个答案:

没有答案