标签: python pandas apache-spark pyspark pyspark-sql
我有一个火花数据帧,我可以使用
toPandas()
pyspark中提供的方法。
我对此有以下疑问?
由于
答案 0 :(得分:4)
是的,一旦在spark-dataframe上调用toPandas,它就会离开分布式系统,而新的pandas数据帧将在集群的驱动节点中。
toPandas
如果火花数据帧很大并且如果不适合驱动程序内存则会崩溃。