标签: apache-spark cassandra spark-streaming
我有一个Spark Streaming进程,它将数据插入到Cassandra中。
每个计算过程的结果将取决于之前的插入,因此我需要做的是找到一种方法来有效地仅在内存中保留前一个插入的数据。此外,内存结构中的内容将随每个插入更新..
我考虑使用累加器变量,但我需要太多的值 - >超过5-6000 ..每次从卡桑德拉那里排队他们绝对不能提供良好的表现。
你认为我应该怎么做?