我有一个看起来像这样的数据集:
df <- structure(list(Claim.Num = c(500L, 500L, 600L, 600L, 700L, 700L,
100L, 200L, 300L), Amount = c(NA, 1000L, NA, 564L, 0L, 200L,
NA, 0L, NA), Company = structure(c(NA, 1L, NA, 4L, 2L, 3L, NA,
3L, NA), .Label = c("ATT", "Boeing", "Petco", "T Mobile"), class = "factor")), .Names =
c("Claim.Num", "Amount", "Company"), class = "data.frame", row.names = c(NA,
-9L))
我想根据Claim Num值删除重复行,但要根据以下条件删除重复项:df$Company == 'NA' | df$Amount == 0
换句话说,删除记录1,3和5。
我已经走到这一步了:df <- df[!duplicated(df$Claim.Num[which(df$Amount = 0 | df$Company == 'NA')]),]
代码运行时没有错误,但实际上并没有根据所需条件删除重复行。我认为这是因为我告诉它删除任何与这些条件匹配的重复声明Nums,但不删除任何重复的Claim.Num
但是处理某些金额&amp;公司优先进行搬迁。请注意,我不能简单地根据指定的值过滤掉数据集,因为有其他记录可能有0或NA值,需要包含(例如,不应排除记录8和9,因为它们的声明。 Nums不重复。)
答案 0 :(得分:2)
如果您先订购数据框,那么您可以确保duplicated
保留您想要的数据框:
df.tmp <- with(df, df[order(ifelse(is.na(Company) | Amount == 0, 1, 0)), ])
df.tmp[!duplicated(df.tmp$Claim.Num), ]
# Claim.Num Amount Company
# 2 500 1000 ATT
# 4 600 564 T Mobile
# 6 700 200 Petco
# 7 100 NA <NA>
# 8 200 0 Petco
# 9 300 NA <NA>
答案 1 :(得分:0)
略有不同的方法
r <- merge(df,
aggregate(df$Amount,by=list(Claim.Num=df$Claim.Num),length),
by="Claim.Num")
result <-r[!(r$x>1 & (is.na(r$Company) | (r$Amount==0))),-ncol(r)]
result
# Claim.Num Amount Company
# 1 100 NA <NA>
# 2 200 0 Petco
# 3 300 NA <NA>
# 5 500 1000 ATT
# 7 600 564 T Mobile
# 9 700 200 Petco
这会添加一列x
来指示哪些行Claim.Num
出现多次,然后根据您的条件过滤结果。使用-ncol(r)
只会删除末尾的x
列。
答案 2 :(得分:0)
基于subset
和逻辑索引的另一种方式:
subset(dat, !(duplicated(Claim.Num) | duplicated(Claim.Num, fromLast = TRUE)) |
(!is.na(Amount) & Amount))
Claim.Num Amount Company
2 500 1000 ATT
4 600 564 T Mobile
6 700 200 Petco
7 100 NA <NA>
8 200 0 Petco
9 300 NA <NA>