应用错误收集

Apache Spark。火花客户端的高可用性

时间：2015-01-09 14:20:30

标签： bigdata apache-spark high-availability

我正在努力为客户端的spark应用程序找到任何指南或手册的高可用性实践。我能够通过ZooKeeper为Spark master HA找到建议，但那是不同的。

问题在于，如果您运行连接到spark的应用程序的多个实例，则必须在所有这些实例之间划分可用的群集资源，这是一种过度杀伤。

有什么像我正在寻找的指南吗？

1 个答案:

答案 0 :(得分：0)

这取决于您的主人设置的内容。如果您使用纱线客户端高可用性是免费的或一些免费的。如果您在纱线客户端或本地模式下运行的东西，如果该机器发生故障，您的工作就会完成。现在真的归结为你想要做的事情。如果您希望计算资源与hadoop数据节点分开，我会查看一个mesos集群。这是一种很好的方法，可以在不锁定纱线资源的情况下进行一些特殊/长期运行的作业。

您的数据来源是什么？您想要完成什么？