我想更改spark会话的默认内存,执行程序和核心设置。 我在Jupyter的HDInsight集群上的pyspark笔记本中的第一个代码如下所示:
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("Juanita_Smith")\
.config("spark.executor.instances", "2")\
.config("spark.executor.cores", "2")\
.config("spark.executor.memory", "2g")\
.config("spark.driver.memory", "2g")\
.getOrCreate()
然而,如果我看纱线,设置确实没有用。
我需要进行哪些设置或命令才能使会话配置生效?
提前感谢您的帮助
答案 0 :(得分:2)
当您的笔记本内核启动时,已经使用内核配置文件中定义的参数创建了let arrayWithDupes = [1,2,2,3];
let uniq = Array.from(new Set(arrayWithDupes)); // [1,2,3]
。要更改此设置,您需要更新或替换内核配置文件,我认为该文件通常位于SparkSession
之内。
如果您可以访问托管Jupyter服务器的计算机,则可以使用<jupyter home>/kernels/<kernel name>/kernel.json
找到当前内核配置的位置。然后,您可以编辑其中一个pyspark内核配置,或将其复制到新文件并进行编辑。出于您的目的,您需要将以下参数添加到jupyter kernelspec list
:
PYSPARK_SUBMIT_ARGS