标签: scala spark-streaming
正在寻找有关火花流的建议。我正在通过使用kafka传输数据,并在应用了一些映射后将结果存储到HBase中。
第一个要点:我想创建一个查找表(内存中),每次需要从流数据中填充“名字”和“城市”以及公用密钥姓氏。
所以我的记录结构将是姓,名和城市
此表将每天保持增长。.
第二点是,如果基于姓氏流中缺少此数据,则在应用映射来填充名字和城市时,我需要查找此表。
第3点:我想将数据保留在查找表中仅15天,并删除早于15天的记录。
请让我知道您对实现此逻辑的建议。
谢谢