我正在努力为客户端的spark应用程序找到任何指南或手册的高可用性实践。我能够通过ZooKeeper为Spark master HA找到建议,但那是不同的。
问题在于,如果您运行连接到spark的应用程序的多个实例,则必须在所有这些实例之间划分可用的群集资源,这是一种过度杀伤。
有什么像我正在寻找的指南吗?
答案 0 :(得分:0)
这取决于您的主人设置的内容。如果您使用纱线客户端高可用性是免费的或一些免费的。如果您在纱线客户端或本地模式下运行的东西,如果该机器发生故障,您的工作就会完成。现在真的归结为你想要做的事情。如果您希望计算资源与hadoop数据节点分开,我会查看一个mesos集群。这是一种很好的方法,可以在不锁定纱线资源的情况下进行一些特殊/长期运行的作业。
您的数据来源是什么?您想要完成什么?