我正在尝试使用Spark Structured Streaming对适合指定窗口期的数据进行分组。
val profiles = rawProfiles.select("*")
.groupBy(window($"date", "10 minutes", "5 minutes").alias("date"), $"id", $"name")
.agg(sum("value").alias("value"))
.join(url.value, Seq("url"), "left")
.where("value > 20")
.as[profileRecord]
rawProfiles中日期的格式是这样的字符串:
2017-07-20 18:27:45
窗口聚合后的日期列返回的内容如下:
[0,554c749fb8a00,554c76dbed000]
我不确定该如何处理。有没有人有任何想法?