我创建了一个简单的data.frame:
data.frame(a = rep(LETTERS[1:4], each=4),
b = c(sample(6,4),sample(6,4),sample(6,4),sample(6,4)))
a b
1 A 6
2 A 4
3 A 2
4 A 3
5 B 5
6 B 1
7 B 3
8 B 6
9 C 2
10 C 3
11 C 5
12 C 1
13 D 4
14 D 5
15 D 1
16 D 3
如何只保留data.frame中的那些行,其中b列中的数字出现在a列的所有4个字母中?因此,例如,列a中的数字3显示为a,B,C和D列,因此应保留。
答案 0 :(得分:2)
这是一种使用递归交集的略微不同的方法。
set.seed(123)
df <- data.frame(a = rep(LETTERS[1:4], each=4),
b = c(sample(6,4),sample(6,4),sample(6,4),sample(6,4)))
with(df, df[b %in% Reduce(intersect, split(b, a)),])
a b
3 A 6
4 A 3
5 B 6
7 B 3
10 C 3
11 C 6
14 D 3
16 D 6
答案 1 :(得分:1)
鉴于x
是您的数据框,
keep <- apply( x, 1,
function( y ) all( LETTERS[1:4] %in% x[ x[,2] == y[2], 1 ] ) )
将为您提供一个长度为nrow( x )
的布尔矢量,您可以使用它来选择所需的行:
x[ keep, ]
答案 2 :(得分:0)
您还可以尝试使用table()
来帮助您进行分组:
set.seed(123)
df <- data.frame(a = rep(LETTERS[1:4], each=4),
b = c(sample(6,4), sample(6,4), sample(6,4), sample(6,4)))
df[df$b %in% which(colSums(table(df)) == length(unique(df$a))), ]
# a b
# 3 A 6
# 4 A 3
# 5 B 6
# 7 B 3
# 10 C 3
# 11 C 6
# 14 D 3
# 16 D 6
回想起来,ave()
在这里非常方便。首先创建一个矢量以匹配您的条件:
(counts <- ave(df$b, df$b, FUN = length))
# [1] 2 3 4 4 4 2 4 3 3 4 4 2 1 4 2 4
然后,符合您所需的条件:
df[counts == 4, ]
# a b
# 3 A 6
# 4 A 3
# 5 B 6
# 7 B 3
# 10 C 3
# 11 C 6
# 14 D 3
# 16 D 6