应用错误收集

Apache spark + RDD + persist（）怀疑

时间：2016-03-23 14:03:48

标签： scala apache-spark rdd persist

我是apache spark的新手，并使用scala API。我有两个关于RDD的问题。

如何在apache spark中保留rdd的某些分区，而不是整个rdd？（核心rdd实现提供了rdd.persist（）和rdd.cache（）方法，但我不想保留整个rdd。我只对一些分区感兴趣。）
如何在创建每个rdd时创建一个空分区？（我正在使用重新分区和textFile转换。在这些情况下，我可以获得预期的分区数，但我也想为每个rdd分配一个空分区。）

感谢任何帮助。提前致谢

0 个答案:

没有答案