Spark Streaming:如何获取一天的时间戳计数?

时间:2018-10-16 14:42:20

标签: java apache-spark apache-spark-sql spark-streaming

从具有数据时间戳记的kafka主题读取流。该数据也可以具有未来或过去的时间戳。
有没有办法获取一天来的数据计数? 我试图将timestamp转换为date,然后在date上进行汇总,并得到sum作为count。它似乎不起作用。

sourceDataset
                .withWatermark("timestamp", watermarkInterval)
                .select(
                        col("timestamp").cast("date")
                )
                .groupBy(
                        functions.window(col("date"), windowInterval)
                ).sum().as("count")
                ;

1 个答案:

答案 0 :(得分:0)

使用javapairdstream并将日期设置为的键,将值设置为1。现在按键减少可用于计算出现次数。如果您要以小批量获取数量,则此方法适用