我正在尝试在Spark和Scala中生成时间序列数据。我在DataFrame中有以下数据,即每小时数据
sid|date |count
200|2016-04-30T18:00:00:00+00:00 | 10
200 |2016-04-30T21:00:00:00+00:00 | 5
我想通过从输入中获取最大时间来每小时生成最近2天的时间序列数据。在我的情况下,系列数据应该从2016-04-30T21:00:00:00 + 00:00开始并生成每小时数据。没有数据的任何小时则应该将计数设置为空。样本输出如下
id|sid|date |count
1 |200|2016-04-28T22:00:00:00+00:00 |
2 |200|2016-04-28T23:00:00:00+00:00 |
3 |200|2016-04-29T00:00:00:00+00:00 |
--------------------------------------
45|200|2016-04-30T18:00:00:00+00:00 |10
--------------------------------------
--------------------------------------
48|200|2016-04-30T21:00:00:00+00:00 |5
谢谢,