我试图删除在不同文档中不断重复的整个段落。这是一封电子邮件末尾的免责声明,例如:"任何审查,转发传播或其他使用此电子邮件...."
docs<-Corpus(VectorSource(text$Description))
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/|@|\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeWords, paste0(
"any ",
"review ",
"retransmission, ",
"dissemination ...)
它不起作用。我无法删除单个单词,因为其中一些单词可能很有价值......有什么建议吗?