如何使用Spark增加JVM最大堆空间?
我正在使用为Hadoop 1.0.4构建的Spark 1.3.1(git revision 908a0bf)。
我正在尝试从rdd收集700,000个元素。
我不认为700000条目对于火花来说太多了,因为它已经将数据作为RDD。收集数据过度使用我的驱动程序,因为我正在尝试创建一个包含700,000个条目的数组,我想我无法在JVM上执行此操作。我的JVM上出现Stackoverflow错误,我的SparkContext失败,因为我破坏了我的JVM。
这就是我现在正在做的事情。
~/spark/bin/pyspark --master yarn-client --num-executors 200 --executor-memory 4g --driver-maxResultSize 4g --driver-java-options -Xmx4g
Exception in thread "main" java.lang.IllegalArgumentException:
pyspark does not support any application options.
我发现命令java -Xmx flag是配置JVM的最大堆空间的,我认为可能是我的启动spark代码错误的部分。当我启动Spark时,如何增加JVM最大堆空间?