标签: cassandra apache-spark apache-zookeeper apache-kafka spark-streaming
有没有人在多区域使用apache spark?
我们正在构建一个必须部署多区域的应用程序。我们的堆栈基本上是Scala,Spark,Cassandra和Kafka。主要目标是使用Spark流与Kafka并将其插入Cassandra。
阅读Spark文档,需要Zookeeper来保持高可用性以及Kafka。
问题是:我应该考虑在每个地区保留一个火花集群,还是应该像cassandra一样使用?由于依靠zookeeper来保持主节点的高可用性,那怎么样?这同样适用于zookeeper吗?