我有一个大型数据集(9 mlm obs。),客户唯一ID号出现多次。我想知道有多少客户出现超过100次(或超过任何X次)。
我知道你要计算独特的价值:
# Count unique values in column “customer_no”
length(unique(data.frame$customer_no))
但是,如果在“data.frame”中出现超过X次的“,如何添加”的额外条件?
答案 0 :(得分:1)
尝试
n <- 100
library(data.table)
sum(setDT(df)[,.N>n, by=id]$V1)
#[1] 13632
或者
sum(table(df$id)>n)
#[1] 13632
set.seed(42)
df <- data.frame(id=sample(paste0(letters,1:1e5),9e6,replace=TRUE), val=rnorm(9e6))