标签: hadoop apache-spark pyspark rdd
我从HDFS获取数据并将其存储在Spark RDD中。 Spark根据HDFS块的数量创建分区数。这导致大量空的分区也在管道期间被处理。为了消除这种开销,我想过滤掉RDD中的所有空分区。我知道合并和重新分区,但不能保证将删除所有空分区。
还有其他方法可以解决这个问题吗?