R字频率的文本分析

时间:2017-06-08 16:24:19

标签: r text

我只有R可用于工作,我之前在Python中已经完成了。我需要在CSV文件中计算每组事件。我在Python中做了一个情绪分析,我在一个提供的表中搜索了一个字典Python,其中包含每个短语的计数。我正在研究如何在R中执行此操作,并且只找到了使用预定频率进行一般字数统计的方法。

如果有人有关于如何在R中执行此操作的任何资源链接,请告诉我。谢谢:)

2 个答案:

答案 0 :(得分:3)

这是一个开始的地方:http://tidytextmining.com

library(tidytext)

text_df %>%
  unnest_tokens(word, text)

library(tidytext)
tidy_books <- original_books %>%
  unnest_tokens(word, text)

tidy_books

tidy_books %>%
  count(word, sort = TRUE) 

答案 1 :(得分:1)

包tidytext是一个很好的解决方案。另一种选择是使用文本挖掘包tm

library(tm)
df<-read.csv(myfile)

corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation)

tdm<-TermDocumentMatrix(corpus)

tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)

代码示例通过删除停用词,任何数字和标点来清除文本。如果感兴趣的话,最终答案wordfreq已经准备就绪了。