标签: apache-spark pyspark cloudera hortonworks-data-platform mapr
我有一个5节点集群。我正在使用pyspark将100k csv文件加载到数据帧并执行一些etl操作并将输出写入镶木地板文件。 当我加载数据框时,如何在每个执行程序处理20k记录的所有执行程序中统一划分数据集。
答案 0 :(得分:0)
如果可能,请确保将输入数据拆分为较小的文件。 这样每个执行者将读取并处理单个文件。
如果您无法修改输入文件,可以调用df.repartition(5),但请记住它会导致昂贵的随机播放操作
df.repartition(5)