有没有办法在Spark Structured Streaming中执行outer_join
(特别是左外连接)?我注意到这个JIRA #22053启用了流数据集的内连接(并且效果很好!)。我想知道outer_join
是否也有类似的东西。
我尝试使用JIRA中用于外连接的相同逻辑,并且无法获得正确的输出。谢谢!
答案 0 :(得分:3)
Apache 2.3.0将支持流 - 流连接。以下是2.3.0 RC2的文件:https://dist.apache.org/repos/dist/dev/spark/v2.3.0-rc2-docs/_site/structured-streaming-programming-guide.html#stream-stream-joins
答案 1 :(得分:3)
我能够让流内部联接和外部联接工作。这是我的一些示例代码。希望它有所帮助!
流媒体加入(JIRA Spark-22053& JIRA Spark-22136):
source inject.sh echo foo
{joinType}可以是“inner”,“leftOuter”或“rightOuter”。
您可以在随Spark 2.3发布的文章中找到更多相关信息:https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#stream-stream-joins