我只有R可用于工作,我之前在Python中已经完成了。我需要在CSV文件中计算每组事件。我在Python中做了一个情绪分析,我在一个提供的表中搜索了一个字典Python,其中包含每个短语的计数。我正在研究如何在R中执行此操作,并且只找到了使用预定频率进行一般字数统计的方法。
如果有人有关于如何在R中执行此操作的任何资源链接,请告诉我。谢谢:)
答案 0 :(得分:3)
这是一个开始的地方:http://tidytextmining.com
library(tidytext)
text_df %>%
unnest_tokens(word, text)
library(tidytext)
tidy_books <- original_books %>%
unnest_tokens(word, text)
tidy_books
tidy_books %>%
count(word, sort = TRUE)
答案 1 :(得分:1)
包tidytext是一个很好的解决方案。另一种选择是使用文本挖掘包tm
:
library(tm)
df<-read.csv(myfile)
corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english")
corpus<-tm_map(corpus, removePunctuation)
tdm<-TermDocumentMatrix(corpus)
tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)
代码示例通过删除停用词,任何数字和标点来清除文本。如果感兴趣的话,最终答案wordfreq
已经准备就绪了。