使用dplyr谓词查找数据集中每种文件格式的行数

时间:2015-03-25 17:37:13

标签: r statistics dplyr

我需要使用' group_by'和'总结' (dplyr包的一部分)查找数据集中每种类型文件的行数。我试图理解这是如何工作的,因为我需要在以后将结果用于其他事情。 我试过这样的事情:

```{r problem}
grouped_files <- group_by(files_ENCODE, V5)
files_types <- summarise(grouped_files, V5)
```

V5是文件格式的列,files_ENCODE是包含所有内容的数据集。 我之前从未使用过R,甚至我的朋友Google也无法帮助我学习如何使用这两个功能。请帮忙! :o

1 个答案:

答案 0 :(得分:1)

set.seed(123)
file_data <- data.frame(V5 = sample(c("format_1", "format_2", "format_3"), 20, replace = TRUE))

您只需使用table执行此操作:

table(file_data)
file_data
format_1 format_2 format_3 
       6        6        8 

但如果要dplyr做以下事情:

file_data %>% group_by(V5) %>% summarise(n = n())
Source: local data frame [3 x 2]

        V5 n()
1 format_1   6
2 format_2   6
3 format_3   8