火花会自动溅到磁盘上吗?

时间:2019-10-02 00:47:29

标签: apache-spark

我有一个集群,该集群有10个节点,每个节点具有244GB内存和1TB内存。

如果我有一个500GBx10的数据集,是否会自动默认导致磁盘溢出或我必须调用persist并将默认存储级别设为MEMORY_AND_DISK

1 个答案:

答案 0 :(得分:0)

cache将数据缓存到内存中,一旦内存已满,它将溢出到磁盘上。默认存储级别为MEMORY_AND_DISK。如果您需要其他任何选项,则可以使用带有所需选项的persist方法提供该选项来存储结果。

persist有不同的选项,但是cache就像坚持使用MEMORY_AND_DISK选项。