R中多个变量的频率计数

时间:2016-07-15 12:33:31

标签: r dplyr frequency analysis

我的数据框中有多个变量。我想从大型数据集的QA角度检查某些选定变量的个别频率计数..e

ID Q1 Q2 Q3
1  1  2  3
2  2  1  2 
3  3  2  1
4  1  2  3
5  2  3  1

所以,我应该得到Q1&的频率计数。 Q2,我选择的变量,如下面的输出

Q1 1 - 2
   2 - 2
   3 - 1

Q2 1 - 1
   2 - 3
   3 - 1

我尝试过table(),但看起来像我必须多次写这个函数,我想避免。

table(df$Q1)
table(df$Q2)

还有其他方法可以达到这个目的吗?

5 个答案:

答案 0 :(得分:4)

您可以将applytable

一起使用
apply(df[-1], 2, table)

#  Q1 Q2 Q3
#1  2  1  2
#2  2  3  1
#3  1  1  2

或者,如果您希望仅使用您可以使用的名称指定所选行,

apply(df[c("Q1", "Q2")], 2, table)


#  Q1 Q2
#1  2  1
#2  2  3
#3  1  1

答案 1 :(得分:0)

我们可以使用lapply循环第2列和第3列,然后获取table

lapply(df1[paste0("Q", 1:2)], table)
#$Q1

#1 2 3 
#2 2 1 

#$Q2

#1 2 3 
#1 3 1 

或者没有任何循环,replicate数据集2的names和数据集nrow的{​​{1}},unlist第2和第3列,并应用{ {1}}。

table

答案 2 :(得分:0)

你可以这样做:

library(plyr)
r <- apply(df[-1],2,count)

r$Q1

# $Q1
  # x freq
# 1 1    2
# 2 2    2
# 3 3    1

r$Q2

# $Q2
  # x freq
# 1 1    1
# 2 2    3
# 3 3    1

你也可以这样做:

cols <- c("Q1","Q2")
apply(df[cols],2,count)

这会给你相同的结果。

数据

df <- structure(list(ID = 1:5, Q1 = c(1L, 2L, 3L, 1L, 2L), Q2 = c(2L, 
1L, 2L, 2L, 3L), Q3 = c(3L, 2L, 1L, 3L, 1L)), .Names = c("ID", 
"Q1", "Q2", "Q3"), class = "data.frame", row.names = c(NA, -5L
))

答案 3 :(得分:0)

来自plyr包的count函数的更简单实现是:

library(plyr) 
var_select = c("Q1", "Q2")
count_freq = count(table, var_select)

通过在表函数中使用子集也可以获得类似的结果:

var_select = c("Q1", "Q2")
freq_table = as.data.frame(table(subset(table, select = var_select)))

两种方法都将创建一个包含3列的频率表 - Q1,Q2,Freq。 您可以轻松地向var_select添加更多变量名称,而无需在下一个命令中更改任何内容。

答案 4 :(得分:0)

freq_tibble <- function(data, var1, var2) {
  var1 <- rlang::enquo(var1)
  var2 <- rlang::enquo(var2)

  data %>%
    dplyr::count(!!var1, !!var2) %>%
    tidyr::spread(!!var2, n, fill = 0) %>%
    dplyr::mutate(Total := rowSums(dplyr::select(., -!!var1))) %>%
    dplyr::bind_rows(dplyr::bind_cols(!!rlang::quo_name(var1) := "Total", dplyr::summarize_if(., is.numeric, sum)))
}