spark检查点和本地检查点有什么区别?

时间:2019-11-14 12:33:48

标签: apache-spark spark-checkpoint

spark检查点和本地检查点有什么区别?进行本地检查点时,我会在spark UI中看到以下内容:

enter image description here

它表明本地检查点已保存在内存中。

2 个答案:

答案 0 :(得分:2)

本地检查点将您的数据存储在执行程序存储中(如屏幕截图所示)。 它对于截断RDD的沿袭图很有用,但是,如果发生节点故障,您将丢失数据,并且需要重新计算(取决于您的应用程序,您可能必须付出高昂的代价)。

“标准”检查点将数据存储在可靠的文件系统(如hdfs)中。它的执行成本更高,但即使出现故障也无需重新计算数据。当然,它会截断谱系图。

截断较长的谱系图可避免出现堆栈溢出异常,这在迭代algorithms中特别有用

答案 1 :(得分:1)

  • 本地检查点将数据写入执行程序存储区
  • 经典检查点将数据写入HDFS

本地检查点经典检查点快,但是经典检查点更安全,因为它利用了 HDFS 的可靠性阻止复制。