如何忽略变量子集中但仍然存在其他变量的NA?

时间:2019-07-09 12:50:15

标签: r

有8个测试和众多人口统计变量。我想省略那些没有完整测试数据的人,并将人口统计数据与原始数据集进行比较,以查看是否存在选择偏差。我将用卡方来做。

我已经尝试过na.omit,最后只得到了8个变量的新数据框。

dput(head(df))
structure(list(ï..leerlingnr2013 = 10048001:10048006, schoolnr = c(1004L, 
1004L, 1004L, 1004L, 1004L, 1004L), toets_ws = c(78, 91, 75, 
98, 79, 92), toets_dmt = c(103, 97, 112, 98, 71, 112), toets_bl = c(35, 
57, 55, 63, 15, 46), toets_rw = c(109, 100, 115, 113, 92, 99), 
    citotaal = c(72L, 81L, 81L, 82L, 61L, 85L), citorekwisk = c(50L, 
    49L, 49L, 42L, 40L, 46L), citostudiev = c(31L, 36L, 35L, 
    34L, 31L, 34L), citowereld = c(NA_integer_, NA_integer_, 
    NA_integer_, NA_integer_, NA_integer_, NA_integer_), gebmaand = c(6L, 
    6L, 3L, 6L, 7L, 1L), gebjaar = c(2001L, 2002L, 2002L, 2001L, 
    2001L, 2002L), geslacht = c(1L, 2L, 2L, 2L, 1L, 1L), oplei_vader = c(3L, 
    3L, 3L, NA, 2L, NA), oplei_moeder = c(1L, 2L, 1L, 3L, 2L, 
    2L), CoolSES = c(3L, 3L, 3L, 4L, 2L, 2L), zorgleerling = c(0L, 
    0L, 0L, 0L, 1L, 0L), welblk = c(3.71428571428571, 3.71428571428571, 
    4.28571428571429, 3.71428571428571, 3.71428571428571, 3.42857142857143
    ), welbmll = c(3.66666666666667, 3.66666666666667, 3.83333333333333, 
    2.83333333333333, 2.66666666666667, 4.16666666666667), zelfvertr = c(4.16666666666667, 
    2.16666666666667, 3.66666666666667, 4.16666666666667, 3, 
    3.66666666666667), taak = c(3.8, 3.8, 4.6, 4.6, 4.2, 3.4), 
    bekwaming = c(3.77777777777778, 3.44444444444444, 4.11111111111111, 
    4.66666666666667, 3, 3.33333333333333), extrinsiek = c(3, 
    2.66666666666667, 3.66666666666667, 3.44444444444444, 2.11111111111111, 
    3.33333333333333), prestatie = c(2.57142857142857, 3.85714285714286, 
    3.28571428571429, 1.57142857142857, 1.71428571428571, 2.28571428571429
    ), sociaal = c(3.57142857142857, 2.57142857142857, 3.42857142857143, 
    3.57142857142857, 3.28571428571429, 3.28571428571429)), row.names = c(NA, 
6L), class = "data.frame")

0 个答案:

没有答案