什么是在火花流中设置检查点间隔的使用?

时间:2015-02-27 10:17:28

标签: java apache-spark spark-streaming

** 1)我想知道检查点间隔的使用???

2)是否有任何关系检查点间隔与窗口大小或滑动间隔或批处理间隔?

3)在独立群集模式下运行spark流时,主人将任务(或工作)分配给工作节点???

这里我正在执行流媒体操作,通过从我的文件系统读取文件列表总是读取文件任务只由一个工作人员完成它不与所有工人共享???(目前我有两个工人)

感谢您的帮助>>!**

1 个答案:

答案 0 :(得分:1)

1,2)检查点间隔一般是数据集间隔时间的5-7倍。这被认为是好的。 http://blog.cloudera.com/blog/2014/03/a-guide-to-checkpointing-in-hadoop/

3)是的