将RDD保存到磁盘时,MEMORY_AND_DISK总是优于DISK_ONLY吗?

时间:2016-01-27 11:47:03

标签: apache-spark

使用Apache Spark为什么我会选择使用存储级别DISK_ONLY而不是使用MEMORY_AND_DISK或MEMORY_AND_DISK_SER来保留RDD?

是否存在使用DISK_ONLY提供比MEMORY_AND_DISK或MEMORY_AND_DISK_SER更好的性能的用例。

1 个答案:

答案 0 :(得分:4)

简单示例 - 您可能有一个相对较好的RDD rdd1和一个较小的RDD rdd2。您想要存储它们。

如果你在两者上都应用持久存在的MEMORY_AND_DISK,那么它们都会溢出到磁盘上,从而导致速度变慢。

但是你可以采取不同的方法 - 你可以用DISK_ONLY存储rdd1。可能就是这样,由于这一举动,您可以使用cache()选项将rdd2存储在内存中,您将能够更快地读取它。