标签: apache-spark pyspark apache-spark-sql
我使用dfs中的read.parquet()从镶木地板文件中读取数据框并缓存它。但是,我如何在执行者之间平均分配。
read.parquet()
我使用Cloudera群集,只要它有用就添加。
答案 0 :(得分:0)
从Parquet RDD收集数据并使用广播变量使其在执行者中可访问。
RDD.collect()
Broadcast Variables