想象一下,您有一个包含变量值观察的Dataframe。每个观察结果都保存为三元组变量,时间戳,值。这种布局有点像“observation dataframe”。
#Variable Time Value
#852-YF-007 2016-05-10 23:00:00 4
#852-YF-007 2016-05-11 04:00:00 4
#...
#852-YF-008 2016-05-10 23:00:00 5
#852-YF-008 2016-05-11 04:00:00 3
#...
#852-YF-009 2016-05-10 23:00:00 2
#852-YF-009 2016-05-11 04:00:00 9
#...
将数据加载到Spark Dataframe中并对时间戳进行采样,以便为特定时间戳的每个变量设置一个值。
问题:如何有效地将其转换/转置为"Instants Dataframe",如下所示:
#Time 852-YF-007 852-YF-008 852-YF-009
#2016-05-10 23:00:00 4 5 2
#2016-05-11 04:00:00 4 3 9
#...
列数取决于变量的数量。每列是时间序列(该变量的所有采样值),而行是时间戳。 注意:时间戳的数量将远远大于变量的数量。
更新:它与数据透视表相关,但我没有固定数量的列。这个数字因变量的数量而异。