在Java的多个内核上运行spark的配置是什么

时间:2018-10-05 03:24:38

标签: java apache-spark parallel-processing

当我在服务器上本地安装spark时,我在pyspark中使用以下代码来指定用于spark应用程序的内核数。但是,当我使用Java项目通过maven依赖项进行安装并运行spark-java程序时,相同的配置无法在多个内核上并行化。

我正在使用.master("local[36]")指定36个内核。还有其他方法可以执行此操作,因为这在Java中不起作用。

 SparkSession spark  = SparkSession
                .builder()
                .master("local[36]")
                .config("spark.hadoop.fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
                .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
                .config("spark.sql.shuffle.partitions", "1000")
                .getOrCreate();

一些帮助将不胜感激。

0 个答案:

没有答案