R的tm_map正在创建不存在的单词

时间:2016-12-03 16:14:29

标签: r tm tidytext

我正在使用tm包来查找文本中单词之间的关联。

这就是我所做的(我也使用tidytext包)

book <- Corpus(VectorSource(c(part1,part2,part3,part4,part5)))
book <- tm_map(book, content_transformer(tolower))
book <- tm_map(book, removeNumbers)
book <- tm_map(book, removePunctuation)
book <- tm_map(book, stripWhitespace)
book <- tm_map(book, removeWords, stopwords("english"))

TDM_book <- TermDocumentMatrix(book)

book_tidy <- tidy(TDM_book)

当我查看决赛桌时会有informationare之类的字词,但文字中的文字中有information are字样,但有很多information thisinformation that

我怎样才能摆脱那种“神奇的粘贴”?

祝你好运

0 个答案:

没有答案