Question

我正在尝试为我的社会政策案例发短信。每个案例都是连续的，我想知道我有多少案例提到“通用信用”或一些新的未知问题。我从词频开始。

我已经将数据转换为这种格式。由于有三个案例研究，所以ID基本上取值1,2或3。言语具有狗或猫的价值。

dd <- read.table(text="ID       Word
1   dog
1   cat
2   cat
2   cat
3   cat", header=TRUE)

我想为每个单词计数唯一的ID，即有三个案例研究提到了猫

Word Count
cat      3
dog      1

我什至不确定现在是文本挖掘问题，还是基本组或计数问题。

Answer 1

我认为您可以通过简单的dplyr调用来完成此操作。例如

library(dplyr)
dd %>% group_by(Word) %>% summarize(Count=n_distinct(ID))
#   Word  Count
#    <fct> <int>
# 1 cat       3
# 2 dog       1

Answer 2

使用基本R而不是软件包

as.data.frame(table(dd$Word))