我相对较新的r(来自sas) 我需要在每组中选择不同数量的观察。组由两个变量的值
标识ToSelect <- data.frame(
key1=c(1,1,1,1,1,2,2,2,2,2,2,2),
key2=c("a","a","b","b","b","a","a","a","a","b","b","b"),
var1=c(2,3,4,6,2,7,8,5,7,1,8,5)
)
NumObs <- data.frame(
key1=c(1,1,2,2),
key2=c("a","b","a","b"),
NumObs=c(1,2,2,1)
)
我尝试过(从问题“为R中的每个级别选择前80个观察结果”)
ToSelect <- merge(x=ToSelect,y=NumObs,by=c("key1","key2"))
library(plyr)
Selected <- ddply(ToSelect, .(key1,key2), head, n = NumObs)
给出了
错误:length(n)== 1L不为TRUE
对于专家来说这可能是一个明显的错误(n是一个标量,NumObs是一个向量?)
从同一个问题,我试过:
Selected <- do.call(
rbind,
lapply(split(ToSelect, c(ToSelect$key1,ToSelect$key2)), head, NumObs)
)
给出了
错误:length(n)== 1L不为TRUE。 另外:警告信息:在 split.default(x = seq_len(nrow(x)),f = f,drop = drop,...):data 长度不是拆分变量的倍数
那么,和以前一样的错误,加上多个东西,如果组的长度不同,我不能使用拆分?
然后我发现了一个问题“按组观察数量”这个问题,我无法让rle / sequence回答在我的案例中起作用,但是在调整ddply答案:
ToSelect <- ddply(ToSelect, .(key1, key2), function(z){
cbind(var1=z$var1,NumObs=z$NumObs,
data.frame(
SeqNum = seq_along(z$key2)
)
)
}
)
Selected <- ToSelect[ToSelect$SeqNum<=ToSelect$NumObs,c("key1","key2","var1")]
有效。
显然我的真实数据要大得多,那么还有另一种更好的方法吗? 谢谢!
答案 0 :(得分:2)
如果您正在寻找效率,我建议您查看data.table
包。这个问题的一个相当直接的解决方案可能是:
#Convert objects to data.table
require("data.table")
ToSelect <- data.table(ToSelect)
NumObs <- data.table(NumObs)
#Merge data
ToSelect <- merge(ToSelect,NumObs,by=c("key1","key2"),all.x=T)
#Provide intra-group ordering variable
ToSelect[,Grp.Seq:=seq(1:.N),by=c("key1","key2")]
Selected <- ToSelect[NumObs>=Grp.Seq]
Selected
key1 key2 var1 NumObs Grp.Seq
1: 1 a 2 1 1
2: 1 b 4 2 1
3: 1 b 6 2 2
4: 2 a 7 2 1
5: 2 a 8 2 2
6: 2 b 1 1 1
如果您不熟悉R
,并且经常使用大型数据集,那么从一开始就学习data.table
可能是有意义的。我为我的工作使用非常大的数据集,而data.frame类对于我所做的大部分工作并不实际。如果需要,可以很容易地在data.frame
和data.table
之间切换。
答案 1 :(得分:1)
如果你想做我认为你想做的事情,那么data.table
将会非常有帮助。根据您在var1
表中给出的所需观察次数,这个小的一个班轮基本上按组随机抽样NumObs
的值。尝试:
# Load package
require(data.table)
# Make your data.frames into data.tables
ts <- data.table( ToSelect , key = c( "key1","key2"))
no <- data.table( NumObs , key = c( "key1","key2") )
# Join together based on key columns and sample by group
no[ts][ , sample( var1 , NumObs , TRUE ) , by = c("key1","key2") ]
# key1 key2 V1
#1: 1 a 2
#2: 1 b 6 #|_ Two observations of group 1b
#3: 1 b 6 #|
#4: 2 a 5 #|_ Two observations of group 2a
#5: 2 a 8 #|
#6: 2 b 5
如果您不想使用替换进行采样(如上所述,请查看组1b的值 - 它们是相同的)然后删除TRUE
的{{1}}参数(因此您无法选择比每组观察总数更多的观察结果。)
答案 2 :(得分:0)
以下是一种方法,您可以从每组ToSelect
和key1
对key2
中选择n个观察值。在这种情况下,n由NumObs
data.frame。{/ p>中的NumObs
指定
要做到这一点,我使用包dplyr
,但肯定有其他方法可以做同样的事情。
安装软件包并将其加载到您的库中:
require(dplyr)
我首先将两个data.frames加入(=合并):
df <- left_join(ToSelect, NumObs, by=c("key1", "key2"))
然后,我将结果data.frame df分组为key1
和key2
,并选择每组的NumObs
个oberservations数量:
df <- df %.% group_by(key1, key2) %.% filter(1:n() <= NumObs)
>df
# key1 key2 var1 NumObs
#1 1 a 2 1
#2 1 b 4 2
#3 1 b 6 2
#4 2 a 7 2
#5 2 a 8 2
#6 2 b 1 1
如果您希望生成的数据框没有NumObs
列,则可以将其修改为:
df <- df %.% group_by(key1, key2) %.% filter(1:n() <= NumObs) %.% select(-NumObs)