使用toPandas()方法

时间:2016-05-28 13:50:15

标签: python pandas apache-spark pyspark pyspark-sql

我有一个火花数据帧,我可以使用

转换为pandas数据帧
toPandas()

pyspark中提供的方法。

我对此有以下疑问?

  1. 此转换是否会破坏使用spark的目的 本身(分布式计算)?
  2. 数据集将是巨大的,那么速度和内存如何呢? 问题是什么?
  3. 如果有人也可以解释一下,这个究竟发生了什么 代码行,这确实会有所帮助。
  4. 由于

1 个答案:

答案 0 :(得分:4)

是的,一旦在spark-dataframe上调用toPandas,它就会离开分布式系统,而新的pandas数据帧将在集群的驱动节点中。

如果火花数据帧很大并且如果不适合驱动程序内存则会崩溃。