当我在服务器上本地安装spark时,我在pyspark中使用以下代码来指定用于spark应用程序的内核数。但是,当我使用Java项目通过maven依赖项进行安装并运行spark-java程序时,相同的配置无法在多个内核上并行化。
我正在使用.master("local[36]")
指定36个内核。还有其他方法可以执行此操作,因为这在Java中不起作用。
SparkSession spark = SparkSession
.builder()
.master("local[36]")
.config("spark.hadoop.fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
.config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
.config("spark.sql.shuffle.partitions", "1000")
.getOrCreate();
一些帮助将不胜感激。