Question

如何使用Spark增加JVM最大堆空间？

我正在使用为Hadoop 1.0.4构建的Spark 1.3.1（git revision 908a0bf）。

我正在尝试从rdd收集700,000个元素。

我不认为700000条目对于火花来说太多了，因为它已经将数据作为RDD。收集数据过度使用我的驱动程序，因为我正在尝试创建一个包含700,000个条目的数组，我想我无法在JVM上执行此操作。我的JVM上出现Stackoverflow错误，我的SparkContext失败，因为我破坏了我的JVM。

这就是我现在正在做的事情。

~/spark/bin/pyspark --master yarn-client --num-executors 200 --executor-memory 4g --driver-maxResultSize 4g --driver-java-options -Xmx4g

Exception in thread "main" java.lang.IllegalArgumentException: 
pyspark does not support any application options.

我发现命令java -Xmx flag是配置JVM的最大堆空间的，我认为可能是我的启动spark代码错误的部分。当我启动Spark时，如何增加JVM最大堆空间？

java.lang.IllegalArgumentException：pyspark不支持任何应用程序选项

0 个答案: