如何在pyspark中的客户端模式下设置spark driver maxResultSize?

时间:2016-07-16 01:15:30

标签: python apache-spark driver pyspark

我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为JVM会在加载库后立即启动。

因此,设置配置的方法是实际去编辑启动它的shell脚本:spark-env.sh ...根据此文档here

如果我想更改驱动程序的最大结果大小,我通常会这样做:spark.driver.maxResultSize。与spark-env.sh文件中的内容相同的是什么?

某些环境变量很容易设置,例如SPARK_DRIVER_MEMORY显然是spark.driver.memory的设置,但spark.driver.maxResultSize的环境变量是什么?谢谢。

1 个答案:

答案 0 :(得分:3)

配置文件为conf/spark-default.conf

如果conf/spark-default.conf不存在

cp conf/spark-defaults.conf.template conf/spark-defaults.conf

添加

等配置
spark.driver.maxResultSize  2g

有许多配置可供参考,请参阅Spark Configuration