我已经开始玩Spark了,我知道这不是一个提出这个问题的地方。但仍希望得到答案。
我想进行基于哈希的比较以查找重复记录。 我从流中收到的记录将包含hashid,recordid字段。
我希望将所有历史记录(hashid,recordid - >键,值)记录在内存中RDD
当在spark DStream RDD中收到新记录时,我想与历史记录(hash,recordid)进行比较
还将新记录添加到内存RDD中的现有历史记录(hashid,recordid - > key,value)
我的想法:
加入基于时间的RDD并将其缓存在内存中(历史查找)
比较新的RDD来了,foreach记录比较历史查找
我做了什么:
我创建了一个流线并能够使用记录。
但我不知道如何将其存储在内存中
我有以下问题:
更新
我将按时收到T1并按时收到T2。在那种情况下,在时间T2,r2是r1的重复。我想把那个id或r1作为记录。