在数据帧的子集上插入变量

时间:2011-12-19 14:54:56

标签: r plyr

我有一个大型数据框,其中包含多年来来自多个州的调查结果。这是数据结构:

state | survey.year | time1 | obs1 | time2 | obs2
CA    | 2000        | 1     | 23   | 1.2   | 43
CA    | 2001        | 2     | 43   | 1.4   | 52
CA    | 2002        | 5     | 53   | 3.2   | 61
...
CA    | 1998        | 3     | 12   | 2.3   | 20
CA    | 1999        | 4     | 14   | 2.8   | 25
CA    | 2003        | 5     | 19   | 4.3   | 29
...
ND    | 2000        | 2     | 223   | 3.2   | 239
ND    | 2001        | 4     | 233   | 4.2   | 321
ND    | 2003        | 7     | 256   | 7.9   | 387

对于每个州/ survey.year组合,我想插入obs2,以便它的时间位置与(time1,obs1)对齐。

即我想将数据框分解为状态/ survey.year块,执行线性插值,然后将各个状态/ survey.year数据帧拼接回主数据帧。

我一直在试图弄清楚如何使用plyr和Hmisc软件包。但是让自己陷入困境。

这是我编写的用于插值的代码:

require(Hmisc)
df <- new.obs2 <- NULL
for (i in 1:(0.5*(ncol(indirect)-1))){
 df[,"new.obs2"] <-   approxExtrap(df[,"time1"],
                                     df[,"obs1"],
                                     xout = df[,"obs2"],
                                     method="linear",
                                     rule=2)
}

但我不确定如何解决这个问题。非常感谢您的慷慨建议和建议。基本上 - 我只是试图在每个州/调查年内插入“obs2”,所以它的时间参考与“obs1”排列。

当然,如果在不调用plyr函数的情况下有一种灵活的方法可以做到这一点,那么我会对此持开放态度......

谢谢!

1 个答案:

答案 0 :(得分:2)

这应该很简单,

ddply(df,.(state,survey.year),transform,
                              new.obs2 = approxExtrap(time1,obs1,xout = obs2,
                                                      method = "linear",
                                                      rule = 2))

但我不能向你保证任何事情,因为我对你的for循环的重点不是最模糊的。 (每次循环都覆盖df[,"new.obs2"]?您将整个数据框df初始化为NULL?什么是indirect?)