如何将Spark流式计算结果写入HDFS?

时间:2016-06-30 23:00:28

标签: apache-spark spark-streaming spark-dataframe

我正在编写Spark流媒体作业,我的批处理窗口是1分钟。每隔30分钟,我想给HDFS写点东西。

  • 我可以在Spark流媒体中做到这一点吗?
  • 如果是,怎么样?

我不想写每个Spark流批处理,因为HDFS上的文件太多了。

我正在获取输入流,我只添加了之前没有见过的记录到RDD(或Dataframe),然后在30分钟间隔后我想将其写入HDFS。

我脑海中的当前解决方案是

  1. 使用updateStateByKey
  2. 使用间隔较大的检查点
  3. 只是想知道这种用例中的标准模式是什么。

    谢谢,

0 个答案:

没有答案