Question

我只有R可用于工作，我之前在Python中已经完成了。我需要在CSV文件中计算每组事件。我在Python中做了一个情绪分析，我在一个提供的表中搜索了一个字典Python，其中包含每个短语的计数。我正在研究如何在R中执行此操作，并且只找到了使用预定频率进行一般字数统计的方法。

如果有人有关于如何在R中执行此操作的任何资源链接，请告诉我。谢谢:)

Answer 1

这是一个开始的地方：http://tidytextmining.com

library(tidytext)

text_df %>%
  unnest_tokens(word, text)

library(tidytext)
tidy_books <- original_books %>%
  unnest_tokens(word, text)

tidy_books

tidy_books %>%
  count(word, sort = TRUE)

Answer 2

包tidytext是一个很好的解决方案。另一种选择是使用文本挖掘包tm：

library(tm)
df<-read.csv(myfile)

corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation)

tdm<-TermDocumentMatrix(corpus)

tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)

代码示例通过删除停用词，任何数字和标点来清除文本。如果感兴趣的话，最终答案wordfreq已经准备就绪了。

R字频率的文本分析

2 个答案: