应用错误收集

比较spark stream

时间：2016-09-28 10:59:08

标签： java scala apache-spark spark-streaming

目前我正在开发Spark Streaming，数据量很大，我有以下几种情况。

每隔2分钟，将处理流数据。在一些转换过程中，我需要验证下一批（即）2分钟后可能出现的数据。在这种情况下，我需要将这些特定数据保存在内存或磁盘加内存中的组合中，以便在下一批/ 2分钟后比较这些数据。在我的情况下，累加器或广播变量都不会有帮助。在这种情况下，最好的方法是什么？

0 个答案:

没有答案