应用错误收集

当动作结果的大小大于机器内存时，它如何工作？

时间：2019-07-10 10:46:36

标签： apache-spark pyspark

pyspark collect（）（action）为1gb的机器的存储和内存大小。但是我得到的文件大小为4gb（存储在4个分区中，每个分区的大小为1gb）。现在我的4GB结果将如何返回输出？

1 个答案:

答案 0 :(得分：1)

您的工作可能会因OOO错误而失败。您可以将结果写入HDFS并从那里读取它，而不是进行收集（收集是一种不好的做法）或者您可以给驱动程序机器更多的内存（驱动程序将存储收集的数据）