每个火花工人只有2个执行者

时间:2018-02-26 11:25:26

标签: apache-spark cassandra datastax-java-driver spark-cassandra-connector

我有一个拥有3个节点集群的服务器,总核心数为72

Node 1 - cassandra + spark master + 1 spark worker
Node 2 - cassandra + 1 spark worker
Node 2 - cassandra + 1 spark worker

但是每个spark工作者只需要两个执行者

SparkSession spark = SparkSession.builder().appName("CassandraSparkJavaDemo")
                .config("spark.cassandra.connection.host", "ipaddress")
                .config("spark.cassandra.connection.port", "9042")
                .config("spark.driver.allowMultipleContexts", true)
                .config("spark.cores.max", "3")                 
                .master("spark://ipaddress:7077").getOrCreate();

使用RDD在5700万条记录中读取和聚合花了1个多小时(我看到每个火花工人只需要两个执行者)

  1. 如何使用spark cassandre connector java api /任何spark conf change来增加执行程序的数量?
  2. 还有其他方法可以改善表现吗?

0 个答案:

没有答案