Question

我想更改spark会话的默认内存，执行程序和核心设置。我在Jupyter的HDInsight集群上的pyspark笔记本中的第一个代码如下所示：

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("Juanita_Smith")\
    .config("spark.executor.instances", "2")\
    .config("spark.executor.cores", "2")\
    .config("spark.executor.memory", "2g")\
    .config("spark.driver.memory", "2g")\
    .getOrCreate()

完成后，我回读了参数，看起来像是有效的

然而，如果我看纱线，设置确实没有用。

我需要进行哪些设置或命令才能使会话配置生效？

提前感谢您的帮助

Answer 1

当您的笔记本内核启动时，已经使用内核配置文件中定义的参数创建了let arrayWithDupes = [1,2,2,3]; let uniq = Array.from(new Set(arrayWithDupes)); // [1,2,3]。要更改此设置，您需要更新或替换内核配置文件，我认为该文件通常位于SparkSession之内。

更新

如果您可以访问托管Jupyter服务器的计算机，则可以使用<jupyter home>/kernels/<kernel name>/kernel.json找到当前内核配置的位置。然后，您可以编辑其中一个pyspark内核配置，或将其复制到新文件并进行编辑。出于您的目的，您需要将以下参数添加到jupyter kernelspec list：

PYSPARK_SUBMIT_ARGS

如何在pyspark开始火花

1 个答案:

更新