Question

当我使用Shark/Spark SQL处理大数据时，Spark会提醒Out Of Memory。没有使用隧道GC。我猜原始数据太大而无法处理。

我的问题是我如何估计为Spark分配的内存，或者给Spark一个特定的内存，Spark可以处理的最大数据？

Answer 1

您的数据大小是多少？
您使用哪种模式进行shark / spark SQL？独立，纱线，mesos？首先尝试使用独立模式进行测试。
您的机器环境设置是什么？ VM？中央处理器？存储器？

如果您想设置内存，可以在scala代码中尝试以下操作，

val conf = new SparkConf()  
    .setMaster("local")
    .setAppName("Wordcount")
    .set("spark.executor.memory", "4g")
val sc = new SparkContext(conf)

您可以访问以获取更多调整信息。 http://spark.apache.org/docs/latest/tuning.html#data-serialization和火花配置供参考。 http://spark.apache.org/docs/latest/configuration.html

如何估计Shark / Spark SQL所需的内存？

1 个答案: