应用错误收集

如何将Spark流式计算结果写入HDFS？

时间：2016-06-30 23:00:28

标签： apache-spark spark-streaming spark-dataframe

我正在编写Spark流媒体作业，我的批处理窗口是1分钟。每隔30分钟，我想给HDFS写点东西。

我可以在Spark流媒体中做到这一点吗？
如果是，怎么样？

我不想写每个Spark流批处理，因为HDFS上的文件太多了。

我正在获取输入流，我只添加了之前没有见过的记录到RDD（或Dataframe），然后在30分钟间隔后我想将其写入HDFS。

我脑海中的当前解决方案是

使用updateStateByKey
使用间隔较大的检查点

只是想知道这种用例中的标准模式是什么。

谢谢，

0 个答案:

没有答案