如何用相邻值替换数据帧中的NA(缺失值)

时间:2009-08-09 23:00:24

标签: r missing-data imputation locf

862 2006-05-19 6.241603 5.774208     
863 2006-05-20 NA       NA      
864 2006-05-21 NA       NA      
865 2006-05-22 6.383929 5.906426      
866 2006-05-23 6.782068 6.268758      
867 2006-05-24 6.534616 6.013767      
868 2006-05-25 6.370312 5.856366      
869 2006-05-26 6.225175 5.781617      
870 2006-05-27 NA       NA     

我有一个像上面的数据框x有一些NA,我想用相邻的非NA值填充,如2006-05-20它将是平均19& 22

这是怎么回事?

3 个答案:

答案 0 :(得分:34)

正确格式化您的数据

862 2006-05-19 6.241603 5.774208 
863 2006-05-20 NA       NA 
864 2006-05-21 NA       NA 
865 2006-05-22 6.383929 5.906426 
866 2006-05-23 6.782068 6.268758 
867 2006-05-24 6.534616 6.013767 
868 2006-05-25 6.370312 5.856366 
869 2006-05-26 6.225175 5.781617 
870 2006-05-27 NA       NA

具有时间序列性质。所以我会加载到类zoo的对象(来自zoo包),因为这允许您选择一些策略 - 见下文。您选择哪一个取决于您的数据和应用程序的性质。通常,“将数据丢失”的字段称为数据插补 还有一个相当大的文献。

R> x <- zoo(X[,3:4], order.by=as.Date(X[,2]))
R> x
               x     y
2006-05-19 6.242 5.774
2006-05-20    NA    NA
2006-05-21    NA    NA
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
2006-05-27    NA    NA
R> na.locf(x)  # last observation carried forward
               x     y
2006-05-19 6.242 5.774
2006-05-20 6.242 5.774
2006-05-21 6.242 5.774
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
2006-05-27 6.225 5.782
R> na.approx(x)  # approximation based on before/after values
               x     y
2006-05-19 6.242 5.774
2006-05-20 6.289 5.818
2006-05-21 6.336 5.862
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
R> na.spline(x)   # spline fit ...
               x     y
2006-05-19 6.242 5.774
2006-05-20 5.585 5.159
2006-05-21 5.797 5.358
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
2006-05-27 5.973 5.716
R> 

答案 1 :(得分:0)

取决于数据tidyr::fill()可能是一种选择:

library(tidyverse)

df %>% fill(x)                    # single column x
df %>% fill(x, y)                 # multiple columns, x and y
df %>% fill(x, .direction = 'up') # filling from the bottom up rather than top down

答案 2 :(得分:0)

这似乎是时间序列,因此时间序列缺失值替换(计算)方法在这里可能有意义。

这些方法在时间上寻找一个变量的相关性,并据此估计丢失的数据。

例如imputeTS软件包可能是此处的一个选项。有多种选择:

library("imputeTS")
na_interpolation(data)

用于使用线性插值替换缺失值。

library("imputeTS")
na_ma(data)

用于使用移动平均线替换缺失值。

library("imputeTS")
na_kalman(data)

使用ARIMA模型/卡尔曼平滑法进行插补要先进一些。

还有更多可能的方法(请参阅此paper,在这里进行更深入的研究以使用最适合您的问题可能是有意义的。