R tm包 - 删除整个段落

时间:2016-09-29 02:03:41

标签: r text mining

我试图删除在不同文档中不断重复的整个段落。这是一封电子邮件末尾的免责声明,例如:"任何审查,转发传播或其他使用此电子邮件...."

docs<-Corpus(VectorSource(text$Description))
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/|@|\\|")
docs <- tm_map(docs, content_transformer(tolower))
   docs <- tm_map(docs, removeWords, paste0(
  "any ",
  "review ",
  "retransmission, ",
  "dissemination ...)

它不起作用。我无法删除单个单词,因为其中一些单词可能很有价值......有什么建议吗?

0 个答案:

没有答案