PySpark:从顺序观察数据帧

时间:2016-08-30 18:07:17

标签: python time-series pyspark spark-dataframe

想象一下,您有一个包含变量值观察的Dataframe。每个观察结果都保存为三元组变量,时间戳,值。这种布局有点像“observation dataframe”。

#Variable     Time                Value
#852-YF-007   2016-05-10 23:00:00 4
#852-YF-007   2016-05-11 04:00:00 4
#...
#852-YF-008   2016-05-10 23:00:00 5
#852-YF-008   2016-05-11 04:00:00 3
#...
#852-YF-009   2016-05-10 23:00:00 2
#852-YF-009   2016-05-11 04:00:00 9
#...

将数据加载到Spark Dataframe中并对时间戳进行采样,以便为特定时间戳的每个变量设置一个值。

问题:如何有效地将其转换/转置为"Instants Dataframe",如下所示:

#Time                    852-YF-007     852-YF-008     852-YF-009
#2016-05-10 23:00:00     4              5              2
#2016-05-11 04:00:00     4              3              9
#...

列数取决于变量的数量。每列是时间序列(该变量的所有采样值),而行是时间戳。 注意:时间戳的数量将远远大于变量的数量。

更新:它与数据透视表相关,但我没有固定数量的列。这个数字因变量的数量而异。

0 个答案:

没有答案