我有以下代码
import com.datastax.spark.connector._
sc.cassandraTable("test", "hello").cassandraCount
这需要大约1小时30分钟才能完成,但在此过程中会产生以下输出
[阶段0:> (12 + 2)/ 26674]
其中26674是任务总数 12是完成的任务 数字2中最重要的一个是可以并行运行的任务数量其他单词此应用程序可以使用的最大内核数量为2.所以我的重要问题是如何更改此内容? < / p>
我有1个spark主节点和2个spark worker节点 每个Spark工作节点都有4vCPU和16GB RAM(m4.xlarge)。
我尝试使用以下标志的不同值来搞乱
- executor-cores --total-executor-cores --num-executors
但是我无法将2改为更高的任何想法?
我使用Spark Stand alone cluster
答案 0 :(得分:0)
export SPARK_WORKER_CORES=12
是超额订阅可以并行运行的核心数量的方法