Spark Structured Streaming中日期列上的窗口操作

时间:2017-08-11 14:16:25

标签: scala apache-spark apache-spark-sql spark-structured-streaming

我正在尝试使用Spark Structured Streaming对适合指定窗口期的数据进行分组。

val profiles = rawProfiles.select("*")
    .groupBy(window($"date", "10 minutes", "5 minutes").alias("date"), $"id", $"name")
    .agg(sum("value").alias("value"))
    .join(url.value, Seq("url"), "left")
    .where("value > 20")
    .as[profileRecord]

rawProfiles中日期的格式是这样的字符串:

  

2017-07-20 18:27:45

窗口聚合后的日期列返回的内容如下:

  

[0,554c749fb8a00,554c76dbed000]

我不确定该如何处理。有没有人有任何想法?

0 个答案:

没有答案