标签: spark-streaming
我正在开发基于文件流的火花流应用程序......我需要实际检测DStream中的重复记录(RDD)。
我希望只使用内存来实现。首先,考虑累加器,但不确定累加器是否可以保留大量记录(具有CSV记录散列的查找表)。
我想知道如何在我的spark流应用程序中拥有一个庞大的全局可变集合?