在时间序列数据中填充缺失值的最佳方法是什么?数据在工作时间内变化很大。数据丢失很大。
我已经尝试过回填,向前填充和填充数据的卑鄙技巧。我还尝试了使用pandas包进行插值(线性,最近和多项式)。但是取得的成果不是很有用。enter image description here
第一张图显示了4月6日至9日前后丢失的数据。使用线性插值填补缺失值后,绘制第二张图。
填充此类数据的最佳方法是什么?恐怕线性插值最终会污染数据。
我已经阅读了一些有关卡尔曼滤波器的内容。不确定如何使用。
答案 0 :(得分:0)
这实际上取决于丢失数据块的大小,但是在某些情况下可以训练模型以预测丢失值。
除了使用linear regression
,您还可以尝试使用其他模型,例如k-nn regression
。此外,datawig
模块(Github)使用神经网络来学习机器学习模型,以便在表中插入缺失值。
Python中的卡尔曼过滤器可以在FilterPy
模块中找到。有关更多信息,您可以阅读文档here。
此外,由于有了时间序列数据,您可以看到ARIMA model是否可以完成预测缺失值的工作。