应用错误收集

pyspark在所有执行程序中统一分配负载

时间：2017-10-06 02:15:00

标签： apache-spark pyspark cloudera hortonworks-data-platform mapr

我有一个5节点集群。我正在使用pyspark将100k csv文件加载到数据帧并执行一些etl操作并将输出写入镶木地板文件。当我加载数据框时，如何在每个执行程序处理20k记录的所有执行程序中统一划分数据集。

1 个答案:

答案 0 :(得分：0)

如果可能，请确保将输入数据拆分为较小的文件。这样每个执行者将读取并处理单个文件。

如果您无法修改输入文件，可以调用df.repartition(5)，但请记住它会导致昂贵的随机播放操作