我有一个数据框,我想比较一组行,只有当整个组相同时才删除。例如:
df<-data.frame(X=c("a", "a", "a", "b", "b", "b", "c", "c", "c"), Y=c(1,2,1,2,2,2,1,2,1), Z=c("ABC","DEF","ABC", "DEF", "DEF", "DEF", "ABC", "DEF", "ABC"))
X Y Z
1 a 1 ABC
2 a 2 DEF
3 a 1 ABC
4 b 2 DEF
5 b 2 DEF
6 b 2 DEF
7 c 1 ABC
8 c 2 DEF
9 c 1 ABC
此处组由列X标识,我想在不同组之间进行比较。所以,这里组a和组c是相同的。我希望得到最终的预期结果如下:
GroupID Y Z
1 1 1 ABC
2 1 2 DEF
3 1 1 ABC
4 2 2 DEF
5 2 2 DEF
6 2 2 DEF
我知道如何进行这种比较?
答案 0 :(得分:2)
您可能需要查看“compare”包中的compare
函数。这是一种可能性:
library(compare)
x <- with(df, split(df[-1], df[[1]]))
Splits <- combn(names(x), 2)
Comparison <- apply(Splits, 2, function(y) {
compare(x[y[1]], x[y[2]], allowAll = TRUE)$result
})
Splits[, Comparison]
# [1] "a" "c"
由此我们可以看到组“a”和“c”是重复的,我们可以使用它来对原始数据集进行子集化。
我在这个答案中使用了allowAll = TRUE
,但您可能希望查看compare
中可用的其他选项,以确定您在比较中实际想要允许的转换。
答案 1 :(得分:2)
base
R可能性:
# For each 'X', collapse 'Y' and 'Z' to a vector
l <- by(df[ , c("Y", "Z")], df$X, function(dat) paste0(dat, collapse = ""))
# select names of unique list elements
nm <- names(l)[!duplicated(l)]
# use these names to subset the data frame
df[df$X %in% nm, ]
# X Y Z
# 1 a 1 ABC
# 2 a 2 DEF
# 3 a 1 ABC
# 4 b 2 DEF
# 5 b 2 DEF
# 6 b 2 DEF