如何在Spark结构化流中获取特定日期的汇总数据

时间:2019-01-19 13:05:17

标签: spark-structured-streaming spark-streaming-kafka

我有一个火花结构化的蒸汽作业,可以从kafka读取流并将输出写入HDFS。 我的问题是我需要一整天直到特定时间的汇总结果。 由于Spark结构化流媒体不支持完整/更新模式,有没有办法实现相同功能?

如果我的数据是上午10:00,我需要一个汇总的结果,直到当前日期的上午10.00 ...

有人可以帮助实现相同目标吗?

1 个答案:

答案 0 :(得分:0)

我不确定我是否确切了解具体情况,但让我尝试回答。

我建议您进行两步操作:

  1. 火花流将迷你批次保存到以下格式的临时文件夹中:

/yyy-mm-dd/<offset from the day start>.parquet

2019-02-06/100000.parquet2019-02-06/200000.parquet

  1. 另一个Spark作业从相应的位置读取数据,并进行汇总和时间过滤。

您可以使用luigi之类的库进行管理。