如何改善pyspark中的.collect()?

时间:2017-12-12 08:06:05

标签: pyspark pyspark-sql

有没有其他方法来调整pyspark以便.collect()的性能可以得到改善?

我使用的map(lambda row: row.asDict(), x.collect())为10K记录花费的时间超过5秒。

1 个答案:

答案 0 :(得分:1)

我还没试过,但也许是 Apache Arrow项目可以帮助您