应用错误收集

运行spark提交时出现内存不足错误

时间：2020-03-22 20:18:10

标签： apache-spark hadoop pyspark hive bigdata

我正在尝试将60gb的表数据加载到spark python数据帧上，然后将其写入配置单元表中。

我已经设置了驱动程序内存，执行程序内存，最大结果大小足以处理数据。但是当我在命令行中提到所有上述配置时，我通过Spark Submit运行时遇到错误。

注意：通过spark python shell（通过在启动shell时指定驱动程序和执行程序内存），我能够填充目标配置单元表。

有什么想法吗？

1 个答案:

答案 0 :(得分：0)

尝试使用语法：

./spark-submit --conf ...

用于与内存相关的配置。我怀疑您正在做的是-在初始化SparkSession的同时设置它们-这无关紧要，因为那时内核已经启动。与您为运行Shell设置的参数相同。

https://spark.apache.org/docs/latest/submitting-applications.html