我使用R中的library(tm)
包来阻止R中的单词,但我仍然在文档术语矩阵(dtm)中使用相同的词来获得不同的单词。例如,我将“certif”和“certifi”作为不同的单词,“categor”和“categori”作为不同的单词,“cathet”和“catheter”作为不同的单词,“character”和“characteristi”作为不同的单词,等等。是不是stemDocument
应该结束并将它们算作一个单词?我怎样才能解决这个问题?这是我使用的代码:
docs <- Corpus(VectorSource(df$Long_Descriptor)
docs <- tm_map(docs, removePunctuation) %>%
tm_map(removeNumbers) %>%
tm_map(content_transformer(tolower), lazy = TRUE) %>%
tm_map(removeWords, stopwords("english"), lazy = TRUE) %>%
tm_map(stemDocument, language = c("english"), lazy = TRUE)
dtm <- DocumentTermMatrix(docs)