并发火花作业中的共享数据集或RDD

时间:2018-04-12 12:34:43

标签: apache-spark

我有4个同时运行的火花作业。这些工作是否可以共享RDDDataset

2 个答案:

答案 0 :(得分:0)

你无法使用现有的spark API来做到这一点。 虽然很少有实现来解决这种特殊用例。

请参阅此link

Apache Ignite是另一个以内存为中心的分布式商店的项目,可能会在工作之间共享RDD。 https://ignite.apache.org/features/igniterdd.html

答案 1 :(得分:0)

唯一符合你要求的是apache ignite,它具有与apache spark类似的实现,并且易于理解,因为javardd,javapairrdd,dataframe / dataset上的所有API都可以在igniterdd上使用。

https://apacheignite-fs.readme.io/docs/ignitecontext-igniterdd#section-running-sql-queries-against-ignite-cache

最后,您可以在scala和java中找到示例。