pyspark Collect导致内存猛增80GB

时间:2018-09-24 16:04:44

标签: apache-spark pyspark

我有一个Spark作业,该作业读取CSV文件并进行一堆联接和重命名列。 文件大小以MB为单位

x = info_collect.collect()
python中的x大小约为100MB

但是我遇到内存崩溃,请检查Gangla内存是否增加了80GB。 我不知道为什么收集100MB内存会导致内存飙升。

有人可以请教吗?

0 个答案:

没有答案