Apache spark + RDD + persist()怀疑

时间:2016-03-23 14:03:48

标签: scala apache-spark rdd persist

我是apache spark的新手,并使用scala API。我有两个关于RDD的问题。

  1. 如何在apache spark中保留rdd的某些分区,而不是整个rdd? (核心rdd实现提供了rdd.persist()和rdd.cache()方法,但我不想保留整个rdd。我只对一些分区感兴趣。)

  2. 如何在创建每个rdd时创建一个空分区? (我正在使用重新分区和textFile转换。在这些情况下,我可以获得预期的分区数,但我也想为每个rdd分配一个空分区。)

  3. 感谢任何帮助。 提前致谢

0 个答案:

没有答案