测试R

时间:2017-02-07 00:33:21

标签: r missing-data imputation imputets

我有一个时间序列数据集,其中包含一些缺失值。我希望估算缺失的值,但我不确定哪种方法最合适,例如imputeTS包中的线性,样条或stine。

为了完整起见,我想测试我的数据是MCAR,MAR,NMAR。我有一个公平的想法,它是MCAR,但我有兴趣做这个测试。

str(wideRawDF)
'data.frame':   1343 obs. of  13 variables:
 $ Period.Start.Time: POSIXct, format: "2017-01-20 16:30:00" "2017-01-20 16:45:00" "2017-01-20 17:00:00" "2017-01-20 17:15:00" ...
 $ DO0182U09A3      : num  -102 -101 -101 -101 -101 ...
 $ DO0182U09B3      : num  -103.4 -102.8 -103.3 -95.9 -103 ...
 $ DO0182U09C3      : num  -103.9 -104.2 -103.9 -99.2 -104.1 ...
 $ DO0182U21A1      : num  -105 -105 -105 -104 -102 ...
 $ DO0182U21A2      : num  -105 -104 -105 -105 -105 ...
 $ DO0182U21A3      : num  -105 -105 -105 -105 -105 ...
 $ DO0182U21B1      : num  -102 -103 -104 -104 -104 ...
 $ DO0182U21B2      : num  -99.4 -102 -104 -101.4 -104.1 ...
 $ DO0182U21B3      : num  -104 -104 -104 -104 -104 ...
 $ DO0182U21C1      : num  -105 -105 -105 -104 -105 ...
 $ DO0182U21C2      : num  -104 -105 -105 -103 -105 ...
 $ DO0182U21C3      : num  -105 -105 -105 -105 -105 ...

md.pattern(wideRawDF)
     Period.Start.Time DO0182U21C1 DO0182U21C2 DO0182U21C3 DO0182U21B1 DO0182U21B2 DO0182U21B3 DO0182U09A3 DO0182U09B3 DO0182U09C3 DO0182U21A1 DO0182U21A2
1327                 1           1           1           1           1           1           1           1           1           1           1           1
   3                 1           1           1           1           1           1           1           0           1           1           1           1
   1                 1           1           1           1           1           1           1           1           0           1           1           1
   2                 1           1           1           1           1           1           1           1           1           0           1           1
   1                 1           1           1           1           1           1           1           0           1           1           0           0
   1                 1           1           1           1           1           1           1           0           0           1           0           0
   3                 1           1           1           1           1           1           1           1           0           0           0           0
   2                 1           1           1           1           1           1           1           0           0           0           0           0
   3                 1           1           1           1           0           0           0           1           0           0           0           0
                     0           0           0           0           3           3           3           7          10          10          10          10
     DO0182U21A3   
1327           1  0
   3           1  1
   1           1  1
   2           1  1
   1           0  4
   1           0  5
   3           0  5
   2           0  6
   3           0  8
              10 66

如您所见,我DF中的某些列没有NA值。我希望只将具有NA的列传递给MissMech包中的TestMCARNormality函数。

我尝试过以下操作,但我仍然遇到同样的错误:

> TestMCARNormality(wideRawDF[,3:4])
Warning: 8 Cases with all variables missing have been removed 

          from the data.
Warning: More than one missing data pattern should be present. 

使用colnames我得到了我引用md.pattern输出的列的索引,以确定我使用的是NA值的列。

> colnames(wideRawDF)
 [1] "Period.Start.Time" "DO0182U09A3"       "DO0182U09B3"       "DO0182U09C3"       "DO0182U21A1"       "DO0182U21A2"       "DO0182U21A3"       "DO0182U21B1"      
 [9] "DO0182U21B2"       "DO0182U21B3"       "DO0182U21C1"       "DO0182U21C2"       "DO0182U21C3"

测试缺失值的智能方法是什么,只将带有NAs的列传递给TestMCARNormality函数?

2 个答案:

答案 0 :(得分:1)

根据评论,您可以使用以下内容:

has_na <- sapply(wideRawDF, function(x) any(is.na(x)))
TestMCARNormality(wideRawDF[has_na])

has_na是一个布尔向量,对应于wideRawDF的每一列。对于任何至少有一个缺失值的列,它将为TRUE。

因此,wideRawDF[has_na]是您的数据框wideRawDF,但只是缺少值的列。

答案 1 :(得分:0)

事实证明,问题在于TestMCARNormality中的默认设置,该数量涉及缺少模式才能将其包括在分析中的情况。有问题的选项是“ del.lesscases”,默认情况下设置为6。这意味着它将删除少于6种或少于6种情况的所有丢失数据模式。除了数据中第一个缺失的模式(其中包含完整的数据)外,每个模式均不超过3种情况,默认情况下将全部删除。因此,TestMCARNormality会为您提供以下错误:您需要多个丢失的数据模式,这是正确的。如果设置del.lesscases = 2,则它将保留所有丢失的模式,至少保留3个案例;如果设置为del.lesscases = 1,则将保留所有模式的至少2个案例。