应用错误收集

使用toPandas（）方法

时间：2016-05-28 13:50:15

标签： python pandas apache-spark pyspark pyspark-sql

我有一个火花数据帧，我可以使用

转换为pandas数据帧

toPandas()

pyspark中提供的方法。

我对此有以下疑问？

此转换是否会破坏使用spark的目的本身（分布式计算）？
数据集将是巨大的，那么速度和内存如何呢？问题是什么？
如果有人也可以解释一下，这个究竟发生了什么代码行，这确实会有所帮助。

由于

1 个答案:

答案 0 :(得分：4)

是的，一旦在spark-dataframe上调用toPandas，它就会离开分布式系统，而新的pandas数据帧将在集群的驱动节点中。

如果火花数据帧很大并且如果不适合驱动程序内存则会崩溃。