我有一个大型数据框,其中包含多年来来自多个州的调查结果。这是数据结构:
state | survey.year | time1 | obs1 | time2 | obs2
CA | 2000 | 1 | 23 | 1.2 | 43
CA | 2001 | 2 | 43 | 1.4 | 52
CA | 2002 | 5 | 53 | 3.2 | 61
...
CA | 1998 | 3 | 12 | 2.3 | 20
CA | 1999 | 4 | 14 | 2.8 | 25
CA | 2003 | 5 | 19 | 4.3 | 29
...
ND | 2000 | 2 | 223 | 3.2 | 239
ND | 2001 | 4 | 233 | 4.2 | 321
ND | 2003 | 7 | 256 | 7.9 | 387
对于每个州/ survey.year组合,我想插入obs2,以便它的时间位置与(time1,obs1)对齐。
即我想将数据框分解为状态/ survey.year块,执行线性插值,然后将各个状态/ survey.year数据帧拼接回主数据帧。
我一直在试图弄清楚如何使用plyr和Hmisc软件包。但是让自己陷入困境。
这是我编写的用于插值的代码:
require(Hmisc)
df <- new.obs2 <- NULL
for (i in 1:(0.5*(ncol(indirect)-1))){
df[,"new.obs2"] <- approxExtrap(df[,"time1"],
df[,"obs1"],
xout = df[,"obs2"],
method="linear",
rule=2)
}
但我不确定如何解决这个问题。非常感谢您的慷慨建议和建议。基本上 - 我只是试图在每个州/调查年内插入“obs2”,所以它的时间参考与“obs1”排列。
当然,如果在不调用plyr函数的情况下有一种灵活的方法可以做到这一点,那么我会对此持开放态度......
谢谢!
答案 0 :(得分:2)
这应该很简单,
ddply(df,.(state,survey.year),transform,
new.obs2 = approxExtrap(time1,obs1,xout = obs2,
method = "linear",
rule = 2))
但我不能向你保证任何事情,因为我对你的for
循环的重点不是最模糊的。 (每次循环都覆盖df[,"new.obs2"]
?您将整个数据框df
初始化为NULL
?什么是indirect
?)