我有一个传入的数据框,格式如下(timestamp,data1,data2):
2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value2"
2015-09-25T13:00:00.000Z "test" "value3"
我需要"回顾"基于窗口大小并在第三列上执行聚合,因此如果窗口大小为1小时,则输出应为:
2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value1, value2"
2015-09-25T13:00:00.000Z "test" "value2, value3"
2小时窗口:
2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value1, value2"
2015-09-25T13:00:00.000Z "test" "value1, value2, value3"
我正在考虑编写自定义聚合函数,它可以将其与Spark SQL Windowed操作一起分组和使用,但Spark 1.6不支持它。那么也许有人正在研究这样的任务,可以提供帮助吗?