我正在尝试为我的社会政策案例发短信。每个案例都是连续的,我想知道我有多少案例提到“通用信用”或一些新的未知问题。我从词频开始。
我已经将数据转换为这种格式。由于有三个案例研究,所以ID基本上取值1,2或3。言语具有狗或猫的价值。
dd <- read.table(text="ID Word
1 dog
1 cat
2 cat
2 cat
3 cat", header=TRUE)
我想为每个单词计数唯一的ID,即有三个案例研究提到了猫
Word Count
cat 3
dog 1
我什至不确定现在是文本挖掘问题,还是基本组或计数问题。
答案 0 :(得分:0)
我认为您可以通过简单的dplyr调用来完成此操作。例如
library(dplyr)
dd %>% group_by(Word) %>% summarize(Count=n_distinct(ID))
# Word Count
# <fct> <int>
# 1 cat 3
# 2 dog 1
答案 1 :(得分:0)
使用基本R而不是软件包
as.data.frame(table(dd$Word))