应用错误收集

文件流检测重复记录

时间：2016-08-30 06:05:06

标签： spark-streaming

我正在开发基于文件流的火花流应用程序......我需要实际检测DStream中的重复记录（RDD）。

我希望只使用内存来实现。首先，考虑累加器，但不确定累加器是否可以保留大量记录（具有CSV记录散列的查找表）。

我想知道如何在我的spark流应用程序中拥有一个庞大的全局可变集合？

0 个答案:

没有答案