标签: apache-spark spark-streaming spark-dataframe
我正在编写Spark流媒体作业,我的批处理窗口是1分钟。每隔30分钟,我想给HDFS写点东西。
我不想写每个Spark流批处理,因为HDFS上的文件太多了。
我正在获取输入流,我只添加了之前没有见过的记录到RDD(或Dataframe),然后在30分钟间隔后我想将其写入HDFS。
我脑海中的当前解决方案是
只是想知道这种用例中的标准模式是什么。
谢谢,