标签: scala apache-spark rdd persist
我是apache spark的新手,并使用scala API。我有两个关于RDD的问题。
如何在apache spark中保留rdd的某些分区,而不是整个rdd? (核心rdd实现提供了rdd.persist()和rdd.cache()方法,但我不想保留整个rdd。我只对一些分区感兴趣。)
如何在创建每个rdd时创建一个空分区? (我正在使用重新分区和textFile转换。在这些情况下,我可以获得预期的分区数,但我也想为每个rdd分配一个空分区。)
感谢任何帮助。 提前致谢