Question

我有一个拥有3个节点集群的服务器，总核心数为72

Node 1 - cassandra + spark master + 1 spark worker
Node 2 - cassandra + 1 spark worker
Node 2 - cassandra + 1 spark worker

但是每个spark工作者只需要两个执行者

SparkSession spark = SparkSession.builder().appName("CassandraSparkJavaDemo")
                .config("spark.cassandra.connection.host", "ipaddress")
                .config("spark.cassandra.connection.port", "9042")
                .config("spark.driver.allowMultipleContexts", true)
                .config("spark.cores.max", "3")                 
                .master("spark://ipaddress:7077").getOrCreate();

使用RDD在5700万条记录中读取和聚合花了1个多小时（我看到每个火花工人只需要两个执行者）

如何使用spark cassandre connector java api /任何spark conf change来增加执行程序的数量？
还有其他方法可以改善表现吗？

每个火花工人只有2个执行者

0 个答案: