有没有一种方法可以使R中的文本解除标记?

时间:2019-06-14 06:15:47

标签: r nlp sentiment-analysis

运行lemmazation脚本后,我试图对替换后的文本进行标记。有没有办法在R中对我的脚本进行解密?

我尝试使用“ tokens_compound”,但出现错误。

#########Dictionary Lemmazation##################
# extract the contents from text file

tab <- read.delim("/Users/Bryan.M/Desktop/lemmatization-en.txt", 
encoding = "UTF-8", header=FALSE, stringsAsFactors = FALSE)

names(tab) <- c("stem", "term")
stem_list <- function(term) {
    i <- match(term, tab$term)
      if (is.na(i)) {
    stem <- term
      } else {
    stem <- tab$stem[[i]]
  }
  stem
}

corpus::text_tokens(data$text, stemmer = stem_list)
stem_list2 <- corpus::new_stemmer(tab$term, tab$stem)
corpus::text_tokens(data$text, stemmer = stem_list2)

tokens_compund(corpus::text_tokens(data$QOE_rev, stemmer = stem_list))
  

tokens_compound.default(corpus :: text_tokens(data $ QOE_rev,   stemmer = stem_list)):    tokens_compound()仅适用于令牌对象。

我希望输出不会被标记,并且用复数形式化的单词会替换其他单词。

0 个答案:

没有答案