我正在使用tm
包来查找文本中单词之间的关联。
这就是我所做的(我也使用tidytext
包)
book <- Corpus(VectorSource(c(part1,part2,part3,part4,part5)))
book <- tm_map(book, content_transformer(tolower))
book <- tm_map(book, removeNumbers)
book <- tm_map(book, removePunctuation)
book <- tm_map(book, stripWhitespace)
book <- tm_map(book, removeWords, stopwords("english"))
TDM_book <- TermDocumentMatrix(book)
book_tidy <- tidy(TDM_book)
当我查看决赛桌时会有informationare
之类的字词,但文字中的文字中有information are
字样,但有很多information this
和information that
。
我怎样才能摆脱那种“神奇的粘贴”?
祝你好运