如何在pyspark开始火花

时间:2017-07-21 10:38:53

标签: apache-spark pyspark apache-spark-sql

我想更改spark会话的默认内存,执行程序和核心设置。 我在Jupyter的HDInsight集群上的pyspark笔记本中的第一个代码如下所示:

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("Juanita_Smith")\
    .config("spark.executor.instances", "2")\
    .config("spark.executor.cores", "2")\
    .config("spark.executor.memory", "2g")\
    .config("spark.driver.memory", "2g")\
    .getOrCreate()

完成后,我回读了参数,看起来像是有效的 enter image description here

然而,如果我看纱线,设置确实没有用。

enter image description here

enter image description here

我需要进行哪些设置或命令才能使会话配置生效?

提前感谢您的帮助

1 个答案:

答案 0 :(得分:2)

当您的笔记本内核启动时,已经使用内核配置文件中定义的参数创建了let arrayWithDupes = [1,2,2,3]; let uniq = Array.from(new Set(arrayWithDupes)); // [1,2,3] 。要更改此设置,您需要更新或替换内核配置文件,我认为该文件通常位于SparkSession之内。

更新

如果您可以访问托管Jupyter服务器的计算机,则可以使用<jupyter home>/kernels/<kernel name>/kernel.json找到当前内核配置的位置。然后,您可以编辑其中一个pyspark内核配置,或将其复制到新文件并进行编辑。出于您的目的,您需要将以下参数添加到jupyter kernelspec list

PYSPARK_SUBMIT_ARGS