Apache Spark。火花客户端的高可用性

时间:2015-01-09 14:20:30

标签: bigdata apache-spark high-availability

我正在努力为客户端的spark应用程序找到任何指南或手册的高可用性实践。我能够通过ZooKeeper为Spark master HA找到建议,但那是不同的。

问题在于,如果您运行连接到spark的应用程序的多个实例,则必须在所有这些实例之间划分可用的群集资源,这是一种过度杀伤。

有什么像我正在寻找的指南吗?

1 个答案:

答案 0 :(得分:0)

这取决于您的主人设置的内容。如果您使用纱线客户端高可用性是免费的或一些免费的。如果您在纱线客户端或本地模式下运行的东西,如果该机器发生故障,您的工作就会完成。现在真的归结为你想要做的事情。如果您希望计算资源与hadoop数据节点分开,我会查看一个mesos集群。这是一种很好的方法,可以在不锁定纱线资源的情况下进行一些特殊/长期运行的作业。

您的数据来源是什么?您想要完成什么?