当动作结果的大小大于机器内存时,它如何工作?

时间:2019-07-10 10:46:36

标签: apache-spark pyspark

pyspark collect()(action)为1gb的机器的存储和内存大小。但是我得到的文件大小为4gb(存储在4个分区中,每个分区的大小为1gb)。现在我的4GB结果将如何返回输出?

1 个答案:

答案 0 :(得分:1)

您的工作可能会因OOO错误而失败。 您可以将结果写入HDFS并从那里读取它,而不是进行收集(收集是一种不好的做法) 或者您可以给驱动程序机器更多的内存(驱动程序将存储收集的数据)