我想过滤表bsp1
g <- factor(c("Company 1", "Company 2", "Company 3", "Company 4", "Company 5"))
w <- factor(c("a", "b", "c", "a", "c"))
x <- c(28, 18, 25, NA, 21)
y <- c(80, NA, 74, 101, NA)
z <- c(170, 174, 183, NA, 185)
bsp1 <- data.frame(g, w, x, y, z)
colnames(bsp1) <- c("Company", "Sector", "Item 1", "Item 2", "Item 3")
rm(w, x, y, z)
bsp1
# Company Sector Item 1 Item 2 Item 3
# 1 Company 1 a 28 80 170
# 2 Company 2 b 18 NA 174
# 3 Company 3 c 25 74 183
# 4 Company 4 a NA 101 NA
# 5 Company 5 c 21 NA 185
基于映射表bsp2
sector <- factor(c("a", "b", "c"))
a <- c(1, 1, 1)
b <- c(NA, 1, NA)
c <- c(NA, NA, 1)
bsp2 <- data.frame(sector, a, b, c)
colnames(bsp2) <- c("Sector", "Item 1", "Item 2", "Item 3")
bsp2
# Sector Item 1 Item 2 Item 3
# 1 a 1 NA NA
# 2 b 1 1 NA
# 3 c 1 NA 1
过滤规则应为: 对于项目不是NA的bsp2中的每个扇区,应该删除项目中NA与相应扇区的bsp1中的行。
因此,期望的结果看起来像bsp3
bsp3 <- bsp1[c(1, 3, 5),]
bsp3
# Company Sector Item 1 Item 2 Item 3
# 1 Company 1 a 28 80 170
# 3 Company 3 c 25 74 183
# 5 Company 5 c 21 NA 185
公司2被撤销,因为b需要第2项。第5行未被删除,因为第3部分不需要第2项。
我想到了bsp1上所有扇区的应用函数,其中相关列的向量由向量的后续函数派生。
a <- !is.na(bsp2[1,])
a <- which(a==c("TRUE"))
不幸的是,在一个向量的滤波器测试中,我遇到的问题是b被解释为矩阵。
b <- is.na(bsp1[, a])
c <- which(b==c("TRUE"))
reduced2016b <- data2013[-c,]
即使我手动设置了矢量,滤波器结果也不是我所期望的。 如果有人有想法解决这个问题会很棒。部分步骤也会帮助我。
提前谢谢!
答案 0 :(得分:2)
一种方法是melt
两个数据框,merge
按部门和变量,并查找哪些公司NA
value.x
而非NA
value.y
,即
library(reshape2)
new_df <- merge(melt(bsp1), melt(bsp2), by = c('Sector', 'variable'))
ind <- as.character(new_df$Company[is.na(new_df$value.x) & !is.na(new_df$value.y)])
bsp1[!bsp1$Company %in% ind,]
# Company Sector Item 1 Item 2 Item 3
#1 Company 1 a 28 80 170
#3 Company 3 c 25 74 183
#5 Company 5 c 21 NA 185
答案 1 :(得分:0)
一个非常相似的答案,就在上面,只是在发布时完成它。
您可能希望像这样定义数据框
bsp1 <- data.frame(Company=factor(c("Company 1", "Company 2", "Company 3", "Company 4", "Company 5")),
Sector=factor(c("a", "b", "c", "a", "c")),
Item1=c(28, 18, 25, NA, 21),
Item2=c(80, NA, 74, 101, NA),
Item3= c(170, 174, 183, NA, 185))
和
bsp2 <- data.frame(Sector=factor(c("a", "b", "c")),
Item1=c(1, 1, 1),
Item2=c(NA, 1, NA),
Item3=c(NA, NA, 1))
然后融化并合并bsp1和bsp2
bsp1m <- melt(bsp1,id.vars=c("Company","Sector"))
bsp2m <- melt(bsp2,id.vars="Sector", value.name = "flag")
bsp3m <- merge(bsp1m,bsp2m,by=c("Sector","variable"))
最后是bsp1的子集,基于bsp1m中的NA和bsp2m中的1
bsp3 <- bsp1[!bsp1$Company %in% bsp3m$Company[is.na(bsp3m$value) & !is.na(bsp3m$flag)],]