Question

我创建了pyspark纱线工艺，有6个内核和60 GB内存来加载来自csv的数据。现在，当我加载时，我需要将其转换为pandas数据帧。我已尝试使用df.toPandas()并且该过程已启动，但每隔几分钟后，舞台重新开始（如从零开始刷新）这就是我在输入此问题时的所有内容。

[Stage : 10 > ----------------                       (0 + 836) / 11830]

但是过了一会儿，它会刷新数字，其中836现在为0并给我一些错误，比如由于阶段错误而停止的过程。你可能知道导致错误的原因吗？

Answer 1

正如文档here中所述，df.ToPandas()旨在与小型数据集一起使用。

注意此方法仅应在生成的Pandas中使用 DataFrame预计很小，因为所有数据都被加载到司机的记忆。