从Spark RDD中删除空分区

时间:2015-10-22 09:22:44

标签: hadoop apache-spark pyspark rdd

我从HDFS获取数据并将其存储在Spark RDD中。 Spark根据HDFS块的数量创建分区数。这导致大量空的分区也在管道期间被处理。为了消除这种开销,我想过滤掉RDD中的所有空分区。我知道合并和重新分区,但不能保证将删除所有空分区。

还有其他方法可以解决这个问题吗?

0 个答案:

没有答案