我有4个同时运行的火花作业。这些工作是否可以共享RDD
或Dataset
?
答案 0 :(得分:0)
你无法使用现有的spark API来做到这一点。 虽然很少有实现来解决这种特殊用例。
请参阅此link
Apache Ignite是另一个以内存为中心的分布式商店的项目,可能会在工作之间共享RDD。 https://ignite.apache.org/features/igniterdd.html
答案 1 :(得分:0)
唯一符合你要求的是apache ignite,它具有与apache spark类似的实现,并且易于理解,因为javardd,javapairrdd,dataframe / dataset上的所有API都可以在igniterdd上使用。
最后,您可以在scala和java中找到示例。