将Spark Streaming数据与HDFS中的查找数据结合在一起

时间:2018-11-19 06:52:59

标签: apache-spark

我需要在Spark Streaming中加入两个表user和transaction表。目前,我正在用HDFS编写用户表,交易数据将通过Kafka在Spark Streaming中接收。我需要将此流数据与用户数据结合在一起。用户表可以包含修改的记录以及新的记录。目前,我每5分钟设置一个计时器,然后加载HDFS用户表数据,并在计时器到期后再次重新加载。我还可以使用时间戳在用户表中查找已修改的记录并省略旧记录。但是在此计时器(5分钟)内,如果创建了任何用户(该用户不会出现在火花存储器中),则不会将他们与交易数据合并。有什么方法可以将用户数据存储在数据库中,并实时应用流数据的联接?有什么建议吗

0 个答案:

没有答案