我使用以下命令创建了一个语料库:
corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION))
corpus_map <- tm_map(corpus_map, removeNumbers)
以上命令从语料库中删除数字。是否有任何命令可以将字符串中的所有单词分串?例如:“旅行”应该被#转换为3个字母的子串作为“tra”。通常,我会使用
substr("travelling",1,3)
但是我想对tm中的语料库做同样的事情
答案 0 :(得分:0)
您可以编写一个函数来执行所需的转换并在语料库中运行它,例如:
ConvertStrings <- function(textInput){
textOutput <- gsub("travelling", "tra", textInput)
textOutput <- gsub("furtherWords", "further", textOutput)
#...
return(textOutput)
}
corpus_transformed <- ConvertStrings(corpus_map)