标签: java scala apache-spark spark-streaming
目前我正在开发Spark Streaming,数据量很大,我有以下几种情况。
每隔2分钟,将处理流数据。在一些转换过程中,我需要验证下一批(即)2分钟后可能出现的数据。在这种情况下,我需要将这些特定数据保存在内存或磁盘加内存中的组合中,以便在下一批/ 2分钟后比较这些数据。 在我的情况下,累加器或广播变量都不会有帮助。在这种情况下,最好的方法是什么?