Question

我开始使用apache spark for cassandra。我根据documentation

设置了主奴隶火花

我有一个5节点的Cassandra集群。使用datastax的java连接器，我在示例下面的代码可以正常工作。

在下面的代码中，我们只提到了一个cassandra集群的spark master和contact point。

SparkConf conf = new SparkConf(true)
                .set("spark.cassandra.connection.host", "192.168.10.41")
                .set("spark.cassandra.auth.username", "cassandra")
                .set("spark.cassandra.auth.password", "cassandra");

        conf.setAppName("Java API demo");
        conf.setMaster("local[4]");

        JavaSparkContext sc = new JavaSparkContext(conf);

根据数据传输的上述架构图，spark工作者必须与cassandra节点共存，并且比例为1：1。

如果火花工人和cassandra节点是什么意思托管在不同的主机上？这只是网络延迟吗？
工作人员如何知道从哪个cassandra节点获取数据，因为我没有看到我们在任何地方配置它？
cassandra节点要点火工人比例是1：1吗？

spark怎么在cassandra集群中执行查询？

0 个答案: