应用错误收集

如何改善pyspark中的.collect（）？

时间：2017-12-12 08:06:05

标签： pyspark pyspark-sql

有没有其他方法来调整pyspark以便.collect（）的性能可以得到改善？

我使用的map(lambda row: row.asDict(), x.collect())为10K记录花费的时间超过5秒。

1 个答案:

答案 0 :(得分：1)

我还没试过，但也许是 Apache Arrow项目可以帮助您