R

时间:2016-08-08 20:03:37

标签: r text-mining

我使用R中的library(tm)包来阻止R中的单词,但我仍然在文档术语矩阵(dtm)中使用相同的词来获得不同的单词。例如,我将“certif”和“certifi”作为不同的单词,“categor”和“categori”作为不同的单词,“cathet”和“catheter”作为不同的单词,“character”和“characteristi”作为不同的单词,等等。是不是stemDocument应该结束并将它们算作一个单词?我怎样才能解决这个问题?这是我使用的代码:

docs <- Corpus(VectorSource(df$Long_Descriptor)
docs <- tm_map(docs, removePunctuation) %>%
  tm_map(removeNumbers) %>%
  tm_map(content_transformer(tolower), lazy = TRUE) %>%
  tm_map(removeWords, stopwords("english"), lazy = TRUE) %>%
  tm_map(stemDocument, language = c("english"), lazy = TRUE) 

dtm <- DocumentTermMatrix(docs)

0 个答案:

没有答案