我对火花流检查点有些困惑,请帮助我,谢谢!
有两种类型的检查点(元数据和数据检查点)。指南说,在使用状态转换时,将使用数据检查点。我对此很困惑。如果我不使用有状态转换,spark是否还会编写数据检查点内容?
我可以用代码控制检查点的位置吗?
我可以控制可以像批处理Spark作业那样将rdd写入数据检查点数据吗?
我可以在流中使用foreachRDD rdd => rdd.checkpoint()
吗?
如果我不使用rdd.checkpoint()
,Spark的默认行为是什么?哪个rdd可以写入HDFS?
答案 0 :(得分:0)
您可以通过此Link找到出色的指南。