Pyspark估算时间序列中的缺失值

时间:2019-09-18 13:33:40

标签: pyspark time-series linear-regression imputation

我正在使用Pyspark分析一些时间序列数据。

我的数据如下:

Key | time   | value
--------------------
 A  |   t0   |  null
 A  |   t1   |  1.5
 A  |   t2   |  1.7
 B  |   t3   |  0.5
 B  |   t4   |  null
 B  |   t5   |  1.1
 C  |   t6   |  4.3
 C  |   t7   |  3.4
 C  |   t8   |  null
 C  |   t9   |  2.7

可以安全地假设“时间”和“值”之间的关系是线性的。

我想通过训练每个键的其余(时间,值)数据点的线性回归来对空值进行插值。

例如。在(t6,4.3),(t7,3.4),(t9,2.7)上拟合回归以填充t8的空值。

Pandas具有df.interpolate()函数,但是我找不到与pyspark类似的东西。

注意,t0-t9是不规则间隔。

0 个答案:

没有答案