计算文本中停用词的数量

时间:2018-04-21 11:18:46

标签: r text-mining stop-words

我想知道是否有人可以帮我解决以下问题: 我正在尝试确定客户评论文本中停用词的数量(计数)。我在R中使用“quanteda”包停用词列表 我已经对文本进行了标记,并使用以下代码过滤掉了停用词:

stop.words <- tokens_select(corpus2.tokens, stopwords())

但是,我现在无法保存这些结果,以至于我可以计算每次审核中包含的实际停用词数。

任何tipps都将非常感激。提前谢谢!

1 个答案:

答案 0 :(得分:0)

您可以使用str_detect(或stringr stri_detect)中的stringi来计算停用词的数量。 str_detect将返回TRUEFALSE这些您可以算一算。根据您拥有的禁用词列表,您可以获得不同的结果。来自stopwords("en")包的stopwords将返回28.如果您使用stopwords(source = "smart"),您将获得61的计数。

text <- "I've never had a better pulled pork pizza! The amount of toppings that they layered on it was astounding...bacon, corn, more pulled pork, and the sauce was delicious. I shared my pizza with 2 other people. I can't wait to go back."
stopwords <- stopwords::stopwords("en")

sum(stringr::str_detect(tolower(text), stopwords))
28