Question

我使用dfs中的read.parquet()从镶木地板文件中读取数据框并缓存它。但是，我如何在执行者之间平均分配。

我使用Cloudera群集，只要它有用就添加。

Answer 1

从Parquet RDD收集数据并使用广播变量使其在执行者中可访问。

RDD.collect()