从语料库中删除特殊字符

时间:2018-11-06 01:39:26

标签: r rstudio tm corpus

我建立了一个数据,该数据显示所有带有标点符号的词及其频率。然后,我应该从它们中删除标点符号,并检查是否还有剩余的标点符号。

newpapers1 <- tm_map(newpapers, removePunctuation)

punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

但是我仍然以这个特殊字符结尾:

  Var1 Freq
1    ¡   25

是否可以编写一种将所有标点符号一起删除的函数或将其删除的函数?

编辑: 检查文档后,标点符号仍然存在:

> newpapers1[[24]]$content
  

“该研究采用跨文化的视角来考察当地   观众感知并欣赏外国戏剧,以及这种心理   过程因媒体之间的文化距离而异   和观众使用方便的韩国年轻人样本   大学生的文化折扣理论预测该研究   表明文化距离减少了韩国观众的感知   带有戏剧性的人物形象的认同会侵蚀他们的享受   外国戏剧的发展与文化折衷理论不同,但文化   距离引起了韩国观众对新颖性的感知   增加他们对外国戏剧的欣赏本研究讨论了   这些发现的理论和实践意义以及   他们的潜在局限性”


1 个答案:

答案 0 :(得分:0)

您可以像这样使用gsub删除标点符号。

newpapers1 <- tm_map(newpapers, removePunctuation)

my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

希望这会有所帮助。