标签: apache-spark pyspark
pyspark collect()(action)为1gb的机器的存储和内存大小。但是我得到的文件大小为4gb(存储在4个分区中,每个分区的大小为1gb)。现在我的4GB结果将如何返回输出?
答案 0 :(得分:1)
您的工作可能会因OOO错误而失败。 您可以将结果写入HDFS并从那里读取它,而不是进行收集(收集是一种不好的做法) 或者您可以给驱动程序机器更多的内存(驱动程序将存储收集的数据)