如何在执行者之间平均分配数据

时间:2015-12-28 13:11:45

标签: apache-spark pyspark apache-spark-sql

我使用dfs中的read.parquet()从镶木地板文件中读取数据框并缓存它。但是,我如何在执行者之间平均分配。

enter image description here

我使用Cloudera群集,只要它有用就添加。

1 个答案:

答案 0 :(得分:0)

从Parquet RDD收集数据并使用广播变量使其在执行者中可访问。

RDD.collect()

Broadcast Variables