标签: apache-spark pyspark
我有一个Spark作业,该作业读取CSV文件并进行一堆联接和重命名列。 文件大小以MB为单位
x = info_collect.collect() python中的x大小约为100MB
但是我遇到内存崩溃,请检查Gangla内存是否增加了80GB。 我不知道为什么收集100MB内存会导致内存飙升。
有人可以请教吗?