Here是关于IndexedRdd的Amplab工作。自2015年9月以来,该项目没有提交,似乎该方法需要重新扫描整个RDD,以便在每次更新时构建一个新的RDD。
有关如何在未来版本的Spark(可能是Spark 2.0)中解决状态管理,请参阅here。这依赖于以配置的间隔检查点RDD状态。
但是,建议考虑使用Cassandra,GemFire,Redis等随机RW的第三方数据存储。
SnappyData,一个内存中的SQL数据存储区,也在这个阵营中,但也允许数据存储运行嵌入在spark执行器中,避免序列化/反序列化问题。