spark中的indexedRDD与SnappyData相比如何?

时间:2016-02-26 15:38:42

标签: apache-spark snappydata

Spark中indexedRDD工作的状态是什么?有人看过SnappyData吗?他们围绕能够对数据帧进行快速随机读取和写入做出了一些声明。

1 个答案:

答案 0 :(得分:1)

Here是关于IndexedRdd的Amplab工作。自2015年9月以来,该项目没有提交,似乎该方法需要重新扫描整个RDD,以便在每次更新时构建一个新的RDD。 有关如何在未来版本的Spark(可能是Spark 2.0)中解决状态管理,请参阅here。这依赖于以配置的间隔检查点RDD状态。 但是,建议考虑使用CassandraGemFireRedis等随机RW的第三方数据存储。 SnappyData,一个内存中的SQL数据存储区,也在这个阵营中,但也允许数据存储运行嵌入在spark执行器中,避免序列化/反序列化问题。