在群集上运行Apache Spark应用程序时是否可以缓存应用程序jar?

时间:2014-06-11 16:49:32

标签: java caching apache-spark mesos

我有一个Apache Spark MLlib Java应用程序,应该在群集上运行很多次,输入值不同。是否可以在集群上缓存应用程序jar并重用它以减少启动时间,网络负载和组件耦合?

使用过的集群管理器有什么不同吗?

如果缓存了应用程序jar,是否可以在我的应用程序的不同实例中使用相同的RDD缓存?

1 个答案:

答案 0 :(得分:3)

Vainilla Spark无法做到这一点(在撰写本文时--Spark正在快速发展)。

Ooyala贡献的Spark-JobServer完全满足您的需求。它为jar提供了一个寄存器,用于顺序作业提交,并提供额外的工具来按名称缓存RDD。请注意,在Spark Cluster上,Spark-JobServer充当Spark驱动程序。在执行给定任务时,工作人员仍需要从驱动程序加载jar。

请参阅此处的文档:https://github.com/ooyala/spark-jobserver