应用错误收集

RDD可以在火花中持续多久

时间：2015-07-15 14:04:53

标签： apache-spark persistence spark-streaming rdd

我编写了一个程序，我在火花流中持久化RDD，这样一旦新的RDD来自火花流，我就可以加入以前缓存的RDD和新的RDD。有没有办法为这个持久的RDD设置生存时间，这样我就可以确保我没有加入我在上一个流循环中已经获得的RDD。

如果有人可以解释并指出RDD中的持久性是如何工作的，那将会很棒，比如当我从spark上下文中获取持久化的RDD时，如何在我目前的RDD中加入这些RDD。

1 个答案:

答案 0 :(得分：1)

在Spark Streaming中，Streaming进程生成的RDD的生存时间由spark.cleaner.ttl配置控制。它默认为无限但是为了使其产生任何效果，我们还需要将spark.streaming.unpersist设置为false，以便Spark流式传输“让生活”生成的RDD。

请注意，每个RDD ttl都没有。