spark流检查点:数据检查点控制

时间:2019-02-27 09:53:46

标签: apache-spark streaming checkpoint

我对火花流检查点有些困惑,请帮助我,谢谢!

  1. 有两种类型的检查点(元数据和数据检查点)。指南说,在使用状态转换时,将使用数据检查点。我对此很困惑。如果我不使用有状态转换,spark是否还会编写数据检查点内容?

  2. 我可以用代码控制检查点的位置吗? 我可以控制可以像批处理Spark作业那样将rdd写入数据检查点数据吗? 我可以在流中使用foreachRDD rdd => rdd.checkpoint()吗?

  3. 如果我不使用rdd.checkpoint(),Spark的默认行为是什么?哪个rdd可以写入HDFS?

1 个答案:

答案 0 :(得分:0)

您可以通过此Link找到出色的指南。

  1. 不,不需要检查点数据,因为在无状态计算的情况下不需要中间数据。
  2. 我认为在流式计算之后,您不需要任何rdd检查点。 rdd检查点旨在解决沿袭问题,流式检查点全部与流式可靠性和故障恢复有关。