标签: pandas apache-spark dataframe pyspark
我有一个包含许多列的巨大火花数据框(PySpark)。 [100左右的列数和超过5000000的行数]。我想将此数据帧转换为Pandas数据帧。 但是,df.toPandas()效率不高,因为它需要很多时间。
对此有任何帮助吗?