填充大量时间序列数据

时间:2019-08-08 18:52:38

标签: python time-series data-science missing-data fill

在时间序列数据中填充缺失值的最佳方法是什么?数据在工作时间内变化很大。数据丢失很大。

我已经尝试过回填,向前填充和填充数据的卑鄙技巧。我还尝试了使用pandas包进行插值(线性,最近和多项式)。但是取得的成果不是很有用。enter image description here

第一张图显示了4月6日至9日前后丢失的数据。使用线性插值填补缺失值后,绘制第二张图。

填充此类数据的最佳方法是什么?恐怕线性插值最终会污染数据。

我已经阅读了一些有关卡尔曼滤波器的内容。不确定如何使用。

1 个答案:

答案 0 :(得分:0)

这实际上取决于丢失数据块的大小,但是在某些情况下可以训练模型以预测丢失值。
除了使用linear regression,您还可以尝试使用其他模型,例如k-nn regression。此外,datawig模块(Github)使用神经网络来学习机器学习模型,以便在表中插入缺失值。

Python中的卡尔曼过滤器可以在FilterPy模块中找到。有关更多信息,您可以阅读文档here

此外,由于有了时间序列数据,您可以看到ARIMA model是否可以完成预测缺失值的工作。