标签: pandas pyspark dask dask-distributed
是否可以将Spark数据帧直接转换为Dask数据帧??
我目前正在使用Spark的 .toPandas()函数将其转换为pandas数据框,然后转换为dask数据框。 我相信这是低效的操作,并且没有利用dask的分布式处理功能,因为熊猫将始终是瓶颈。
答案 0 :(得分:1)
我也许可以为您提供一个有效的答案,其中涉及从每个工作人员那里调用pyspark,但首先我要指出,保存到镶木地板中并加载结果可能是您可以使用的最快,最简单的方法。