应用错误收集

从Spark RDD中删除空分区

时间：2015-10-22 09:22:44

标签： hadoop apache-spark pyspark rdd

我从HDFS获取数据并将其存储在Spark RDD中。 Spark根据HDFS块的数量创建分区数。这导致大量空的分区也在管道期间被处理。为了消除这种开销，我想过滤掉RDD中的所有空分区。我知道合并和重新分区，但不能保证将删除所有空分区。

还有其他方法可以解决这个问题吗？

0 个答案:

没有答案