使用Apache Spark为什么我会选择使用存储级别DISK_ONLY而不是使用MEMORY_AND_DISK或MEMORY_AND_DISK_SER来保留RDD?
是否存在使用DISK_ONLY提供比MEMORY_AND_DISK或MEMORY_AND_DISK_SER更好的性能的用例。
答案 0 :(得分:4)
简单示例 - 您可能有一个相对较好的RDD rdd1和一个较小的RDD rdd2。您想要存储它们。
如果你在两者上都应用持久存在的MEMORY_AND_DISK,那么它们都会溢出到磁盘上,从而导致速度变慢。
但是你可以采取不同的方法 - 你可以用DISK_ONLY存储rdd1。可能就是这样,由于这一举动,您可以使用cache()选项将rdd2存储在内存中,您将能够更快地读取它。