应用错误收集

在Spark Streaming项目实施中寻找建议

时间：2018-10-23 19:44:30

标签： scala spark-streaming

正在寻找有关火花流的建议。我正在通过使用kafka传输数据，并在应用了一些映射后将结果存储到HBase中。

第一个要点：我想创建一个查找表（内存中），每次需要从流数据中填充“名字”和“城市”以及公用密钥姓氏。

所以我的记录结构将是姓，名和城市

此表将每天保持增长。.

第二点是，如果基于姓氏流中缺少此数据，则在应用映射来填充名字和城市时，我需要查找此表。

第3点：我想将数据保留在查找表中仅15天，并删除早于15天的记录。

请让我知道您对实现此逻辑的建议。

谢谢

0 个答案:

没有答案