假设我有一个数据集data
:
x1 <- c("a","a","a","a","a","a","b","b","b","b")
x2 <- c("a1","a1","a1","a1","a1","a1","b1","b1","b2","b2")
data <- data.frame(x1,x2)
x1 x2
a a1
a a1
a a2
a a1
a a2
a a3
b b1
b b1
b b2
b b2
我想找到与x1
x2
唯一值的数量
例如a
只有3个唯一值(a1,a2
和a3
),b
有2个值(b1
和b2
)
我使用aggregate(x1~.,data,sum)
但它没有用,因为这些是因素,而不是整数。
请帮忙
答案 0 :(得分:8)
尝试
aggregate(x2~x1, data, FUN=function(x) length(unique(x)))
# x1 x2
#1 a 3
#2 b 2
或者
rowSums(table(unique(data)))
或者
library(dplyr)
data %>%
group_by(x1) %>%
summarise(n=n_distinct(x2))
使用@Eric
建议的dplyr
或其他选项
count(distinct(data), x1)
或者
library(data.table)
setDT(data)[, uniqueN(x2) , x1]
如果您需要{x1'的unique
值和计数
setDT(data)[, list(n=uniqueN(x2), x2=unique(x2)) , x1]
或仅unique
值
setDT(data)[, list(x2=unique(x2)) , x1]
或使用dplyr
unique(data, by=x1) %>%
group_by(x1) %>%
mutate(n=n_distinct(x2))
仅限于唯一值
unique(data, by=x1)