运行lemmazation脚本后,我试图对替换后的文本进行标记。有没有办法在R中对我的脚本进行解密?
我尝试使用“ tokens_compound”,但出现错误。
#########Dictionary Lemmazation##################
# extract the contents from text file
tab <- read.delim("/Users/Bryan.M/Desktop/lemmatization-en.txt",
encoding = "UTF-8", header=FALSE, stringsAsFactors = FALSE)
names(tab) <- c("stem", "term")
stem_list <- function(term) {
i <- match(term, tab$term)
if (is.na(i)) {
stem <- term
} else {
stem <- tab$stem[[i]]
}
stem
}
corpus::text_tokens(data$text, stemmer = stem_list)
stem_list2 <- corpus::new_stemmer(tab$term, tab$stem)
corpus::text_tokens(data$text, stemmer = stem_list2)
tokens_compund(corpus::text_tokens(data$QOE_rev, stemmer = stem_list))
tokens_compound.default(corpus :: text_tokens(data $ QOE_rev, stemmer = stem_list)): tokens_compound()仅适用于令牌对象。
我希望输出不会被标记,并且用复数形式化的单词会替换其他单词。