应用错误收集

如何在Spark结构化流中获取特定日期的汇总数据

时间：2019-01-19 13:05:17

标签： spark-structured-streaming spark-streaming-kafka

我有一个火花结构化的蒸汽作业，可以从kafka读取流并将输出写入HDFS。我的问题是我需要一整天直到特定时间的汇总结果。由于Spark结构化流媒体不支持完整/更新模式，有没有办法实现相同功能？

如果我的数据是上午10:00，我需要一个汇总的结果，直到当前日期的上午10.00 ...

有人可以帮助实现相同目标吗？

1 个答案:

答案 0 :(得分：0)

我不确定我是否确切了解具体情况，但让我尝试回答。

我建议您进行两步操作：

火花流将迷你批次保存到以下格式的临时文件夹中：

/yyy-mm-dd/<offset from the day start>.parquet

2019-02-06/100000.parquet，2019-02-06/200000.parquet

另一个Spark作业从相应的位置读取数据，并进行汇总和时间过滤。

您可以使用luigi之类的库进行管理。