文件流检测重复记录

时间:2016-08-30 06:05:06

标签: spark-streaming

我正在开发基于文件流的火花流应用程序......我需要实际检测DStream中的重复记录(RDD)。

我希望只使用内存来实现。首先,考虑累加器,但不确定累加器是否可以保留大量记录(具有CSV记录散列的查找表)。

我想知道如何在我的spark流应用程序中拥有一个庞大的全局可变集合?

0 个答案:

没有答案