我有一个拥有3个节点集群的服务器,总核心数为72
Node 1 - cassandra + spark master + 1 spark worker
Node 2 - cassandra + 1 spark worker
Node 2 - cassandra + 1 spark worker
但是每个spark工作者只需要两个执行者
SparkSession spark = SparkSession.builder().appName("CassandraSparkJavaDemo")
.config("spark.cassandra.connection.host", "ipaddress")
.config("spark.cassandra.connection.port", "9042")
.config("spark.driver.allowMultipleContexts", true)
.config("spark.cores.max", "3")
.master("spark://ipaddress:7077").getOrCreate();
使用RDD在5700万条记录中读取和聚合花了1个多小时(我看到每个火花工人只需要两个执行者)