我有一个配置流(不经常更改,但如果有更新,它将是一条消息),另一个原始数据点流。
据我了解,目前spark不支持加入流式数据集或数据帧。有没有好办法解决这个问题?
是否可以将其中一个流数据集“快照”到静态数据集(可能是配置一,因为它的更新较少),然后与其他流数据集连接?
向建议开放!
答案 0 :(得分:3)
"替代方法"是使用当前的主分支;)
它还没有发布,但是当前的主分支已经有了流内连接,并且正在进行外连接。请参阅this Jira故障单以供参考,在子任务中,您可以看到可能使用的连接。
没有其他简单的解决方法。流连接需要保存流的状态,然后更正状态更新。您可以在pull请求中查看代码,实现流 - 流连接非常复杂。
答案 1 :(得分:0)
所以这就是我最后要做的事情。
将更少更新的流放入内存接收器。然后从该表中选择一个。到这时,它是一个静态实例,可以与另一个流连接。无需触发器。当然,您需要自己更新表格。
这不是很强大,但在官方支持之前,这是我能想到的最好的。