使用mapwithState时如何避免检查点或在火花流中使用HDFS?

时间:2016-09-14 03:19:53

标签: apache-spark spark-streaming

我在java spark streaming应用程序中使用mapwithState,我想避免做一个检查点。原因是我不想安装HDFS。我相信只有容错才需要检查点。

但是,如果我不关心容错,是否可以跳过检查点,但是仍然使用mapwithState?

2 个答案:

答案 0 :(得分:0)

checkpoint 运算符必须 mapWithState 目录配置。它不仅用于容错,还用于在HDFS中存储先前的对象状态。在 local file system 中运行应用程序时,您可以尝试将 local mode 路径作为检查点目录来尝试。

答案 1 :(得分:0)

  

是否可以使用mapWithState跳过检查点?

     

否。至少不要直到Spark-2.0。

mapWithState使用checkpoint目录来存储流数据的状态。这是使Spark Streaming有状态所需支付的成本。在使用Spark流构建有状态应用程序的情况下,您应该考虑使用Kryo Serialization

来自databricks的快照。

enter image description here