应用错误收集

pyspark Collect导致内存猛增80GB

时间：2018-09-24 16:04:44

标签： apache-spark pyspark

我有一个Spark作业，该作业读取CSV文件并进行一堆联接和重命名列。文件大小以MB为单位

x = info_collect.collect（）
python中的x大小约为100MB

但是我遇到内存崩溃，请检查Gangla内存是否增加了80GB。我不知道为什么收集100MB内存会导致内存飙升。

有人可以请教吗？

0 个答案:

没有答案