Question

运行lemmazation脚本后，我试图对替换后的文本进行标记。有没有办法在R中对我的脚本进行解密？

我尝试使用“ tokens_compound”，但出现错误。

#########Dictionary Lemmazation##################
# extract the contents from text file

tab <- read.delim("/Users/Bryan.M/Desktop/lemmatization-en.txt", 
encoding = "UTF-8", header=FALSE, stringsAsFactors = FALSE)

names(tab) <- c("stem", "term")
stem_list <- function(term) {
    i <- match(term, tab$term)
      if (is.na(i)) {
    stem <- term
      } else {
    stem <- tab$stem[[i]]
  }
  stem
}

corpus::text_tokens(data$text, stemmer = stem_list)
stem_list2 <- corpus::new_stemmer(tab$term, tab$stem)
corpus::text_tokens(data$text, stemmer = stem_list2)

tokens_compund(corpus::text_tokens(data$QOE_rev, stemmer = stem_list))

tokens_compound.default（corpus :: text_tokens（data $ QOE_rev， stemmer = stem_list））： tokens_compound（）仅适用于令牌对象。

我希望输出不会被标记，并且用复数形式化的单词会替换其他单词。

有没有一种方法可以使R中的文本解除标记？

0 个答案: