Spark时间序列数据生成

时间:2016-05-13 21:36:25

标签: scala time apache-spark series

我正在尝试在Spark和Scala中生成时间序列数据。我在DataFrame中有以下数据,即每小时数据

sid|date                             |count
200|2016-04-30T18:00:00:00+00:00     | 10
200 |2016-04-30T21:00:00:00+00:00    | 5

我想通过从输入中获取最大时间来每小时生成最近2天的时间序列数据。在我的情况下,系列数据应该从2016-04-30T21:00:00:00 + 00:00开始并生成每小时数据。没有数据的任何小时则应该将计数设置为空。样本输出如下

id|sid|date                          |count
1 |200|2016-04-28T22:00:00:00+00:00  |
2 |200|2016-04-28T23:00:00:00+00:00  |
3 |200|2016-04-29T00:00:00:00+00:00  |
--------------------------------------
45|200|2016-04-30T18:00:00:00+00:00  |10
--------------------------------------
--------------------------------------
48|200|2016-04-30T21:00:00:00+00:00  |5

谢谢,

0 个答案:

没有答案