语料库中的子串在tm包中

时间:2016-11-10 10:58:26

标签: r substring tm

我使用以下命令创建了一个语料库:

corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION))
corpus_map <- tm_map(corpus_map, removeNumbers) 

以上命令从语料库中删除数字。是否有任何命令可以将字符串中的所有单词分串?例如:“旅行”应该被#转换为3个字母的子串作为“tra”。通常,我会使用

substr("travelling",1,3) 

但是我想对tm中的语料库做同样的事情

1 个答案:

答案 0 :(得分:0)

您可以编写一个函数来执行所需的转换并在语料库中运行它,例如:

ConvertStrings <- function(textInput){
textOutput <- gsub("travelling", "tra", textInput)
textOutput <- gsub("furtherWords", "further", textOutput)
#...
return(textOutput)
}
corpus_transformed <- ConvertStrings(corpus_map)