应用错误收集

基于火花流的重复数据删除

时间：2016-09-21 14:59:34

标签： apache-spark spark-streaming

我已经开始玩Spark了，我知道这不是一个提出这个问题的地方。但仍希望得到答案。

我想进行基于哈希的比较以查找重复记录。我从流中收到的记录将包含hashid，recordid字段。

我希望将所有历史记录（hashid，recordid - ＆gt;键，值）记录在内存中RDD
当在spark DStream RDD中收到新记录时，我想与历史记录（hash，recordid）进行比较
还将新记录添加到内存RDD中的现有历史记录（hashid，recordid - ＆gt; key，value）

我的想法：

加入基于时间的RDD并将其缓存在内存中（历史查找）
比较新的RDD来了，foreach记录比较历史查找

我做了什么：

我创建了一个流线并能够使用记录。
但我不知道如何将其存储在内存中

我有以下问题：

我如何实现这一目标或解决方法？
我可以使用MLib吗？或火花流适合我的用例？

更新

我将按时收到T1并按时收到T2。在那种情况下，在时间T2，r2是r1的重复。我想把那个id或r1作为记录。

0 个答案:

没有答案