Pyspark不能将火花df写入火花壳中的pandas df

时间:2017-09-26 12:19:45

标签: python pandas apache-spark pyspark

我创建了pyspark纱线工艺,有6个内核和60 GB内存来加载来自csv的数据。现在,当我加载时,我需要将其转换为pandas数据帧。 我已尝试使用df.toPandas()并且该过程已启动,但每隔几分钟后,舞台重新开始(如从零开始刷新)这就是我在输入此问题时的所有内容。

[Stage : 10 > ----------------                       (0 + 836) / 11830]

但是过了一会儿,它会刷新数字,其中836现在为0并给我一些错误,比如由于阶段错误而停止的过程。 你可能知道导致错误的原因吗?

1 个答案:

答案 0 :(得分:0)

正如文档here中所述,df.ToPandas()旨在与小型数据集一起使用。

  

注意此方法仅应在生成的Pandas中使用   DataFrame预计很小,因为所有数据都被加载到   司机的记忆。