spark怎么在cassandra集群中执行查询?

时间:2017-03-23 11:13:58

标签: apache-spark apache-spark-sql spark-cassandra-connector

我开始使用apache spark for cassandra。我根据documentation

设置了主奴隶火花

我有一个5节点的Cassandra集群。使用datastax的java连接器,我在示例下面的代码可以正常工作。

在下面的代码中,我们只提到了一个cassandra集群的spark master和contact point。

SparkConf conf = new SparkConf(true)
                .set("spark.cassandra.connection.host", "192.168.10.41")
                .set("spark.cassandra.auth.username", "cassandra")
                .set("spark.cassandra.auth.password", "cassandra");

        conf.setAppName("Java API demo");
        conf.setMaster("local[4]");

        JavaSparkContext sc = new JavaSparkContext(conf);

enter image description here 根据数据传输的上述架构图,spark工作者必须与cassandra节点共存,并且比例为1:1。

  1. 如果火花工人和cassandra节点是什么意思 托管在不同的主机上?这只是网络延迟吗?
  2. 工作人员如何知道从哪个cassandra节点获取数据,因为我没有看到我们在任何地方配置它?
  3. cassandra节点要点火工人比例是1:1吗?

0 个答案:

没有答案