应用错误收集

我需要在Spark Streaming中加入两个表user和transaction表。目前，我正在用HDFS编写用户表，交易数据将通过Kafka在Spark Streaming中接收。我需要将此流数据与用户数据结合在一起。用户表可以包含修改的记录以及新的记录。目前，我每5分钟设置一个计时器，然后加载HDFS用户表数据，并在计时器到期后再次重新加载。我还可以使用时间戳在用户表中查找已修改的记录并省略旧记录。但是在此计时器（5分钟）内，如果创建了任何用户（该用户不会出现在火花存储器中），则不会将他们与交易数据合并。有什么方法可以将用户数据存储在数据库中，并实时应用流数据的联接？有什么建议吗

将Spark Streaming数据与HDFS中的查找数据结合在一起

0 个答案: