替换所有Vcorpus内容中的字符串 - R

时间:2015-11-09 14:38:46

标签: r tm

我有一个很大的Vcorpus" wc"每个元素wc [i]包含200个元素,包含文章内容和元数据列表。

> lapply(wci[1], as.character)
 $ 1
 [1] "En guise de mise en bouche\n laissez-vous porter par cette mignardise musicale!\n \n ...etc " 

我想删除" / n"从内容,使它看起来像这样

[1] "En guise de mise en bouche laissez-vous porter par cette mignardise musicale! ...etc " 

当然对所有Vcorus内容(200个元素)重复相同的操作

提前致谢。

2 个答案:

答案 0 :(得分:1)

按顺序使用gsub进行全局替换。

x <- "En guise de mise en bouche\n laissez-vous porter par cette mignardise musicale!\n \n ...etc "
gsub("\\n", "", x)
# [1] "En guise de mise en bouche laissez-vous porter par cette mignardise musicale!  ...etc "

答案 1 :(得分:0)

我做到了,

wc<-tm_map(wc, content_transformer( function(x) gsub("\\n", "", x)))

content_transformer:修改内容的函数 R语料库。 tm-map:用于将转换应用于语料库元素的接口。 gsub:替换字符串。