我创建了pyspark纱线工艺,有6个内核和60 GB内存来加载来自csv的数据。现在,当我加载时,我需要将其转换为pandas数据帧。
我已尝试使用df.toPandas()
并且该过程已启动,但每隔几分钟后,舞台重新开始(如从零开始刷新)这就是我在输入此问题时的所有内容。
[Stage : 10 > ---------------- (0 + 836) / 11830]
但是过了一会儿,它会刷新数字,其中836现在为0并给我一些错误,比如由于阶段错误而停止的过程。 你可能知道导致错误的原因吗?
答案 0 :(得分:0)
正如文档here中所述,df.ToPandas()
旨在与小型数据集一起使用。
注意此方法仅应在生成的Pandas中使用 DataFrame预计很小,因为所有数据都被加载到 司机的记忆。