基于跨越另一(摘要)数据帧中的若干列的键来子集数据帧

时间:2015-02-08 12:17:27

标签: r dataframe subset

我的数据框a有4个标识列:A, B, C, D。使用b创建的第二个数据框ddply()包含每组D的不同A,B,C的所有值的摘要。第三个数据框c包含b的子集,其中包含我想从a删除的错误值。

因此,我想要a的子集,省略A,B,C中同时存在的c组合标识的所有行。我可以想到在循环中做这个(丑陋和低效)的方法,但是,我的DBA背景鼓励我寻求一个更直接的解决方案。

在代码中:

a <- data.frame(
  A=rep(c('2013-10-30', '2014-11-6'), each=16*20),
  B=rep(1:8, each=2*20),
  C=rep(1:4, each=20),
  D=1:20
)

a$Val=rnorm(nrow(a))

library(plyr)
b <- ddply(a, ~B+C+A, summarise,
           mean_Val=mean(Val))

# Some subset criteria based on AOI group values
c <- subset(b, mean_Val <= 0)

# EDIT: Delete all the rows from a for which the
# key-triplets A,B,C are present in c
for (i in 1:nrow(c)) {
  c_row = c[i,]
  a <- a[ which( !(a$A==c_row$A & a$B==c_row$B & a$C==c_row$C) ), ]
}
# This is the loopy type of 'solution' I didn't want to use

请随意解决我的问题中的不明之处。如果你能指出我正确的方向,我很乐意编辑。

2 个答案:

答案 0 :(得分:3)

这是一个可能的data.table解决方案,不需要同时创建bc

library(data.table) 
as.data.table(a)[, if(mean(Val) > 0) .SD, by = list(B, C, A)]

或类似地(如果你也想要自己的意思)

as.data.table(a)[, Mean_Val := mean(Val), list(B, C, A)][Mean_Val > 0]

答案 1 :(得分:2)

如果我们已经创建了3个数据集,并希望根据“c / c1”的元素对第一个“a”进行子集化,则anti_join中的一个选项为dplyr

library(dplyr)
anti_join(a, c1, by=c('A', 'B', 'C'))

更新

或者我们可以使用base R选项和interaction将两个感兴趣的列粘贴在两个数据集中,并检查第二个('c')的元素是否在第一个('a')使用%in%。逻辑索引可用于子集“a”。

 a1 <- a[!(as.character(interaction(a[1:3], sep=".")) %in% 
          as.character(interaction(c[LETTERS[1:3]], sep="."))),]

或者正如@David Arenburg所提到的,我们可能不需要创建bc数据集来获得预期的输出。使用plyr,在“a”中创建一个新的平均列(“mean_Val”),mutatesubset平均值大于0的行(mean_Val >0

 library(plyr)
 subset(ddply(a, ~B+C+A, mutate, mean_Val=mean(Val)), mean_Val>0)

使用dplyr

的类似方法
 library(dplyr)
  a %>%
     group_by(B, C, A) %>%
     mutate(mean_Val=mean(Val)) %>% 
     filter(mean_Val>0)

或者,如果我们不需要将“均值”值作为“a”中的列,则也可以使用ave中的base R

  a[!!with(a, ave(Val, B, C, A, FUN=function(x) mean(x)>0)),]

如果我们需要保留mean_Val列(由@David Arenburg提出的变体)

  subset(transform(a, Mean_Val = ave(Val, B, C, A, FUN = mean)),
                 Mean_Val > 0)

数据

set.seed(24)
a <- data.frame(A= sample(LETTERS[1:3], 20, replace=TRUE), 
   B=sample(LETTERS[1:3], 20, replace=TRUE), C=sample(LETTERS[1:3], 
         20, replace=TRUE), D=rnorm(20))

b <- a %>% 
       group_by(A, B, C) %>% 
       summarise(D=sum(D))
set.seed(39)
c1 <- b[sample(1:nrow(b), 6, replace=FALSE),]