我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为JVM会在加载库后立即启动。
因此,设置配置的方法是实际去编辑启动它的shell脚本:spark-env.sh
...根据此文档here。
如果我想更改驱动程序的最大结果大小,我通常会这样做:spark.driver.maxResultSize
。与spark-env.sh
文件中的内容相同的是什么?
某些环境变量很容易设置,例如SPARK_DRIVER_MEMORY
显然是spark.driver.memory
的设置,但spark.driver.maxResultSize
的环境变量是什么?谢谢。
答案 0 :(得分:3)
配置文件为conf/spark-default.conf
。
如果conf/spark-default.conf
不存在
cp conf/spark-defaults.conf.template conf/spark-defaults.conf
添加
等配置spark.driver.maxResultSize 2g
有许多配置可供参考,请参阅Spark Configuration