如何从多个会话访问相同的Spark RDD?

时间:2016-09-29 20:45:55

标签: apache-spark rdd data-sharing

我有共同的数据集,需要在多个程序/进程中使用。如何在多个scala程序中创建一个Spark RDD并共享相同的RDD?

2 个答案:

答案 0 :(得分:0)

也许您可以查看IgniteRDD,它可以帮助您在多个Spark程序中共享RDD https://ignite.apache.org/features/igniterdd.html

答案 1 :(得分:0)

考虑Spark-Jobserver。 Jobserver的主要作用是成为一个REST接口,但副作用是你可以保持RDD存活并在作业之间共享它们。