我正在使用Pyspark分析一些时间序列数据。
我的数据如下:
Key | time | value
--------------------
A | t0 | null
A | t1 | 1.5
A | t2 | 1.7
B | t3 | 0.5
B | t4 | null
B | t5 | 1.1
C | t6 | 4.3
C | t7 | 3.4
C | t8 | null
C | t9 | 2.7
可以安全地假设“时间”和“值”之间的关系是线性的。
我想通过训练每个键的其余(时间,值)数据点的线性回归来对空值进行插值。
例如。在(t6,4.3),(t7,3.4),(t9,2.7)上拟合回归以填充t8的空值。
Pandas具有df.interpolate()函数,但是我找不到与pyspark类似的东西。
注意,t0-t9是不规则间隔。