Question

我有一个矢量说

c(1,1,1,1,1,1,2,3,4,5,7,7,5,7,7,7)

如何找到每个元素的计数并返回3个最常出现的元素，即1,7,5？

我认为这应该很简单，但我遇到了麻烦。

Answer 1

我确定这是重复的，但答案很简单：

sort(table(variable),decreasing=TRUE)[1:3]

Answer 2

我不知道这是否比表格方法更好，但如果您的列表已经是一个因素，那么它的汇总方法将为您提供频率计数：

> summary(as.factor(c(1,1,1,1,1,1,2,3,4,5,7,7,5,7,7,7)))
1 2 3 4 5 7 
6 1 1 1 2 5

然后你可以像这样最频繁地获得前三名：

> names(sort(summary(as.factor(c(1,1,1,1,1,1,2,3,4,5,7,7,5,7,7,7))), decreasing=T)[1:3])
[1] "1" "7" "5"

Answer 3

如果您的向量仅包含整数，tabulate 将比其他任何内容更快。有几个需要注意的事项：

默认情况下，它会返回从1到N的数字计数。

它将返回一个未命名的向量。

这意味着，如果您的x = c(1,1,1,3)然后tabulate(x)将返回(3, 0, 1)。请注意，默认情况下，计数仅适用于1 to max(x)。

如何使用tabulate确保您可以传递任何数字？

set.seed(45) x <- sample(-5:5, 25, TRUE) # [1] 1 -2 -3 -1 -2 -2 -3 1 -3 -5 -1 4 -2 0 -1 -1 5 -4 -1 -3 -4 -2 1 2 4

只需在abs(min(x))+1时添加min(x) <= 0，以确保值从1开始。如果min(x) > 0，则直接使用tabulate。

sort(setNames(tabulate(x + ifelse(min(x) <= 0, abs(min(x))+1, 0)), seq(min(x), max(x))), decreasing=TRUE)[1:3]

如果您的向量包含NA，那么您可以将table与useNA="always"参数一起使用。

Answer 4

你可以使用table（）函数来获取数组/向量中值的频率列表，然后对该表进行排序。

x = c(1, 1, 1, 2, 2)
sort(table(x))
2 1
2 3

在R中找到向量中最常见的元素

4 个答案: