向上推并收紧Dataframe。一般解决方案

时间:2017-09-29 14:04:45

标签: r dataframe

我想推翻(比喻)ordner中的数据帧以摆脱空间(NA-Values)

我的数据:

> dput(df1)
structure(list(ID = c("CN1-1", "CN1-1", "CN1-1", "CN1-10", "CN1-10", 
"CN1-10", "CN1-11", "CN1-11", "CN1-11", "CN1-12", "CN1-12", "CN1-12", 
"CN1-13", "CN1-13", "CN1-13"), v1 = c(0.37673, NA, NA, 1.019972, 
NA, NA, 0.515152, NA, NA, 0.375139, NA, NA, 0.508125, NA, NA), 
    v2 = c(NA, 0.732, NA, NA, 0, NA, NA, 0.748, NA, NA, 0.466, 
    NA, NA, 0.57, NA), v2 = c(NA, NA, 0.357, NA, NA, 0.816, NA, 
    NA, 0.519, NA, NA, 0.206, NA, NA, 0.464)), .Names = c("ID", 
"v1", "v2", "v2"), row.names = c(NA, 15L), class = "data.frame")
> 

看起来像:

       ID       v1    v2    v2
1   CN1-1 0.376730    NA    NA
2   CN1-1       NA 0.732    NA
3   CN1-1       NA    NA 0.357
4  CN1-10 1.019972    NA    NA
5  CN1-10       NA 0.000    NA
6  CN1-10       NA    NA 0.816
7  CN1-11 0.515152    NA    NA
8  CN1-11       NA 0.748    NA
9  CN1-11       NA    NA 0.519
10 CN1-12 0.375139    NA    NA
11 CN1-12       NA 0.466    NA
12 CN1-12       NA    NA 0.206
13 CN1-13 0.508125    NA    NA
14 CN1-13       NA 0.570    NA
15 CN1-13       NA    NA 0.464

请注意:我不确定所有行的模式是否一致。也有可能,每个ID组一个或多个变量突出2次。

期望的输出:

       ID       v1    v2    v2
1   CN1-1 0.376730 0.732 0.357
2  CN1-10 1.019972 0.000 0.816

...

我的想法是融化然后摆脱所有NA值然后dcast。有更好的方法吗?

编辑:

重复可能看起来像这样。

16 CN1-x 0.508125    NA    NA
17 CN1-x       NA 0.570    NA
18 CN1-x       NA    NA 0.464
19 CN1-x       NA    NA 0.134

1 个答案:

答案 0 :(得分:1)

do.call(rbind,
        lapply(split(df1, df1$ID), function(a)
            data.frame(ID = a$ID[1], lapply(a[-1], sum, na.rm = TRUE))))
#           ID       v1    v2  v2.1
#CN1-1   CN1-1 0.376730 0.732 0.357
#CN1-10 CN1-10 1.019972 0.000 0.816
#CN1-11 CN1-11 0.515152 0.748 0.519
#CN1-12 CN1-12 0.375139 0.466 0.206
#CN1-13 CN1-13 0.508125 0.570 0.464