是否可以在没有Cassandra的情况下使用DataStax部署Spark worker

时间:2017-10-30 21:21:36

标签: apache-spark cassandra datastax

目前,我们有一个运行3个Spark节点的项目。我们想扩大Spark工作人员。但是,就CPU /内存使用而言,使每个火花节点在Cassandra节点之上运行是非常昂贵的。我的问题是,是否可以在没有Cassandra的情况下使用DataStax部署Spark工作者?

1 个答案:

答案 0 :(得分:1)

您通常会在每个Cassandra节点上部署一个Spark-worker以支持数据局部性(如果可能,spark-worker将优先命中它的本地节点)。 但是,如果您真的想将spark服务与cassandra服务分离,您可以选择以下几种方法:

  1. 如果您有订阅课程,请直接询问DSE支持。
  2. 在新节点上部署新的spark-worker,并将其配置为连接到现有的spark-master。基本上,启动spark-slave.sh。如果做得好,这应该有效。当然,DSE会出现一些集成问题,你需要试试看。您必须管理防火墙规则,DNS解析等...当然,您必须手动配置要分配给这个新节点的CPU和RAM的数量。
  3. 完全解除apache-spark与DSE =>仅使用Cassandra-DSE,并在每个3个Cassandra节点+另一个节点上安装Apache Spark。这肯定会起作用,但是需要做一些工作,包括配置你自己的spark-master,如果需要的话处理HA,正确分割DSE和Apache Spark之间的RAM分配。 Cassandra咨询公司的臀部可以在需要时为您提供帮助,instaclustr只是其中之一。
  4. 祝你好运!