pyspark在所有执行程序中统一分配负载

时间:2017-10-06 02:15:00

标签: apache-spark pyspark cloudera hortonworks-data-platform mapr

我有一个5节点集群。我正在使用pyspark将100k csv文件加载到数据帧并执行一些etl操作并将输出写入镶木地板文件。 当我加载数据框时,如何在每个执行程序处理20k记录的所有执行程序中统一划分数据集。

1 个答案:

答案 0 :(得分:0)

如果可能,请确保将输入数据拆分为较小的文件。 这样每个执行者将读取并处理单个文件。

如果您无法修改输入文件,可以调用df.repartition(5),但请记住它会导致昂贵的随机播放操作