计算出现超过X次的唯一值

时间:2014-10-23 14:33:40

标签: r unique distinct-values

我有一个大型数据集(9 mlm obs。),客户唯一ID号出现多次。我想知道有多少客户出现超过100次(或超过任何X次)。

我知道你要计算独特的价值:

# Count unique values in column “customer_no”
length(unique(data.frame$customer_no))

但是,如果在“data.frame”中出现超过X次的“,如何添加”的额外条件?

1 个答案:

答案 0 :(得分:1)

尝试

n <- 100
library(data.table)
sum(setDT(df)[,.N>n, by=id]$V1)
#[1] 13632

或者

 sum(table(df$id)>n)
 #[1] 13632

数据

set.seed(42)
df <- data.frame(id=sample(paste0(letters,1:1e5),9e6,replace=TRUE), val=rnorm(9e6))