缓存RDD有什么缺点?

时间:2018-10-25 21:04:08

标签: apache-spark pyspark rdd

我们最近开始缓存可重复使用多次的RDD,即使这些RDD不需要花费很长时间进行计算。

根据docs,Spark将使用LRU策略自动清除未使用的缓存数据。

因此,过度缓存RDD是否有任何缺点?我在想,也许将所有反序列化的数据存储在内存中可能会对GC施加更大的压力,但这是我们应该担心的事情吗?

1 个答案:

答案 0 :(得分:1)

缓存大量RDD的主要缺点是(显然)它使用内存。如果限制了缓存的大小,则LRU策略并不一定意味着将价值最低的物品逐出。如果您在缓存所有内容时不考虑其价值,则可能会发现,如果不希望它们被淘汰,则会驱逐出更多计算上昂贵但不常访问的项目。