我需要有两个动态共享缓存(基本上是一种哈希图),才能在Spark结构化的流作业中获取一些信息。高速缓存是动态的,因为在同一批次中,Spark执行程序可能正在更新高速缓存并读取它们。 据我了解,spark没有提供任何在所有执行者之间共享动态数据的机制。
有没有一种方法可以在流媒体中维护内存缓存?
如果没有,在这种情况下,哪个外部数据库源将提供最佳性能。 我已经探索了一些没有SQL数据库的数据库,例如hbase,cassandra等。
缓存的大小将达到一百万左右。 每批流处理中正在处理的记录数约为10万。