基于火花流的重复数据删除

时间:2016-09-21 14:59:34

标签: apache-spark spark-streaming

我已经开始玩Spark了,我知道这不是一个提出这个问题的地方。但仍希望得到答案。

我想进行基于哈希的比较以查找重复记录。 我从流中收到的记录将包含hashid,recordid字段。

  1. 我希望将所有历史记录(hashid,recordid - >键,值)记录在内存中RDD

  2. 当在spark DStream RDD中收到新记录时,我想与历史记录(hash,recordid)进行比较

  3. 还将新记录添加到内存RDD中的现有历史记录(hashid,recordid - > key,value)

  4. 我的想法:

    1. 加入基于时间的RDD并将其缓存在内存中(历史查找)

    2. 比较新的RDD来了,foreach记录比较历史查找

    3. 我做了什么:

      1. 我创建了一个流线并能够使用记录。

      2. 但我不知道如何将其存储在内存中

      3. 我有以下问题:

        1. 我如何实现这一目标或解决方法?
        2. 我可以使用MLib吗?或火花流适合我的用例?
        3. 更新

          我将按时收到T1并按时收到T2。在那种情况下,在时间T2,r2是r1的重复。我想把那个id或r1作为记录。

0 个答案:

没有答案
相关问题