removePunctuation函数后仍有标点符号问题

时间:2015-07-17 14:05:52

标签: r text plot nlp tm

我使用了" tm"中的removePuncutation。术语文档矩阵中的R包。出于某种原因,我在字母的情节中仍然留下了奇怪的字符,而不是我在分析的语料库中的比例。

以下是我用来清理语料库的代码:

docs <- tm_map(docs, toSpace, "/|@|\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, stripWhitespace)
dtm <- DocumentTermMatrix(docs)
freq <- colSums(as.matrix(dtm))
words <- dtm %>%as.matrix %>%colnames %>% (function(x) x[nchar(x) < 20])
library(dplyr)
library(stringr)
words %>%str_split("") %>%sapply(function(x) x[-1]) %>%unlist%>%dist_tab %>%mutate(Letter=factor(toupper(interval),levels=toupper(interval[order(freq)]))) %>%ggplot(aes(Letter, weight=percent))+geom_bar()+coord_flip()+ylab("Proportion")+scale_y_continuous(breaks=seq(0, 12,2),label=function(x) paste0(x, "%"),expand=c(0,0), limits=c(0,12))

我离开了以下情节:

enter image description here

我试图弄清楚这里出了什么问题。

0 个答案:

没有答案