SparkSQL时间序列数据:如何在DataFrame

时间:2016-01-16 20:20:45

标签: apache-spark apache-spark-sql

我有一个传入的数据框,格式如下(timestamp,data1,data2):

2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value2"
2015-09-25T13:00:00.000Z "test" "value3"

我需要"回顾"基于窗口大小并在第三列上执行聚合,因此如果窗口大小为1小时,则输出应为:

2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value1, value2"
2015-09-25T13:00:00.000Z "test" "value2, value3"

2小时窗口:

2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value1, value2"
2015-09-25T13:00:00.000Z "test" "value1, value2, value3"

我正在考虑编写自定义聚合函数,它可以将其与Spark SQL Windowed操作一起分组和使用,但Spark 1.6不支持它。那么也许有人正在研究这样的任务,可以提供帮助吗?

0 个答案:

没有答案