我有共同的数据集,需要在多个程序/进程中使用。如何在多个scala程序中创建一个Spark RDD并共享相同的RDD?
答案 0 :(得分:0)
也许您可以查看IgniteRDD,它可以帮助您在多个Spark程序中共享RDD https://ignite.apache.org/features/igniterdd.html
答案 1 :(得分:0)
考虑Spark-Jobserver。 Jobserver的主要作用是成为一个REST接口,但副作用是你可以保持RDD存活并在作业之间共享它们。