标签: pyspark pyspark-sql
有没有其他方法来调整pyspark以便.collect()的性能可以得到改善?
我使用的map(lambda row: row.asDict(), x.collect())为10K记录花费的时间超过5秒。
map(lambda row: row.asDict(), x.collect())
答案 0 :(得分:1)
我还没试过,但也许是 Apache Arrow项目可以帮助您