Question

我有一个很大的Vcorpus＆＃34; wc＆＃34;每个元素wc [i]包含200个元素，包含文章内容和元数据列表。

> lapply(wci[1], as.character)
 $ 1
 [1] "En guise de mise en bouche\n laissez-vous porter par cette mignardise musicale!\n \n ...etc "

我想删除＆＃34; / n＆＃34;从内容，使它看起来像这样

[1] "En guise de mise en bouche laissez-vous porter par cette mignardise musicale! ...etc "

当然对所有Vcorus内容（200个元素）重复相同的操作

提前致谢。

Answer 1

按顺序使用gsub进行全局替换。

x <- "En guise de mise en bouche\n laissez-vous porter par cette mignardise musicale!\n \n ...etc "
gsub("\\n", "", x)
# [1] "En guise de mise en bouche laissez-vous porter par cette mignardise musicale!  ...etc "

Answer 2

我做到了，

wc<-tm_map(wc, content_transformer( function(x) gsub("\\n", "", x)))

content_transformer：修改内容的函数 R语料库。 tm-map：用于将转换应用于语料库元素的接口。 gsub：替换字符串。

替换所有Vcorpus内容中的字符串 - R

2 个答案: