Question

我使用R中的library(tm)包来阻止R中的单词，但我仍然在文档术语矩阵（dtm）中使用相同的词来获得不同的单词。例如，我将“certif”和“certifi”作为不同的单词，“categor”和“categori”作为不同的单词，“cathet”和“catheter”作为不同的单词，“character”和“characteristi”作为不同的单词，等等。是不是stemDocument应该结束并将它们算作一个单词？我怎样才能解决这个问题？这是我使用的代码：

docs <- Corpus(VectorSource(df$Long_Descriptor)
docs <- tm_map(docs, removePunctuation) %>%
  tm_map(removeNumbers) %>%
  tm_map(content_transformer(tolower), lazy = TRUE) %>%
  tm_map(removeWords, stopwords("english"), lazy = TRUE) %>%
  tm_map(stemDocument, language = c("english"), lazy = TRUE) 

dtm <- DocumentTermMatrix(docs)

R

0 个答案: