当我使用Shark/Spark SQL处理大数据时,Spark会提醒Out Of Memory
。没有使用隧道GC。我猜原始数据太大而无法处理。
我的问题是我如何估计为Spark分配的内存,或者给Spark一个特定的内存,Spark可以处理的最大数据?
答案 0 :(得分:0)
如果您想设置内存,可以在scala代码中尝试以下操作,
val conf = new SparkConf()
.setMaster("local")
.setAppName("Wordcount")
.set("spark.executor.memory", "4g")
val sc = new SparkContext(conf)
您可以访问以获取更多调整信息。 http://spark.apache.org/docs/latest/tuning.html#data-serialization和火花配置供参考。 http://spark.apache.org/docs/latest/configuration.html