分组词频

时间:2018-06-20 19:12:15

标签: r text-mining

我正在尝试为我的社会政策案例发短信。每个案例都是连续的,我想知道我有多少案例提到“通用信用”或一些新的未知问题。我从词频开始。

我已经将数据转换为这种格式。由于有三个案例研究,所以ID基本上取值1,2或3。言语具有狗或猫的价值。

dd <- read.table(text="ID       Word
1   dog
1   cat
2   cat
2   cat
3   cat", header=TRUE)

我想为每个单词计数唯一的ID,即有三个案例研究提到了猫

Word Count
cat      3
dog      1

我什至不确定现在是文本挖掘问题,还是基本组或计数问题。

2 个答案:

答案 0 :(得分:0)

我认为您可以通过简单的dplyr调用来完成此操作。例如

library(dplyr)
dd %>% group_by(Word) %>% summarize(Count=n_distinct(ID))
#   Word  Count
#    <fct> <int>
# 1 cat       3
# 2 dog       1

答案 1 :(得分:0)

使用基本R而不是软件包

as.data.frame(table(dd$Word))