在Spark Streaming项目实施中寻找建议

时间:2018-10-23 19:44:30

标签: scala spark-streaming

正在寻找有关火花流的建议。我正在通过使用kafka传输数据,并在应用了一些映射后将结果存储到HBase中。

第一个要点:我想创建一个查找表(内存中),每次需要从流数据中填充“名字”和“城市”以及公用密钥姓氏。

所以我的记录结构将是姓,名和城市

此表将每天保持增长。.

第二点是,如果基于姓氏流中缺少此数据,则在应用映射来填充名字和城市时,我需要查找此表。

第3点:我想将数据保留在查找表中仅15天,并删除早于15天的记录。

请让我知道您对实现此逻辑的建议。

谢谢

0 个答案:

没有答案