使用tm包删除R中的表情符号

时间:2017-07-03 20:19:07

标签: r sentiment-analysis tm emoticons

我正在使用tm软件包来清理Twitter语料库。但是,程序包无法清除表情符号。

这是一个复制的代码:

July4th_clean <- tm_map(July4th_clean, content_transformer(tolower))
Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes ������������������ july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'

有人能指出我正确的方向使用tm包删除表情符号吗?

谢谢,

路易斯

2 个答案:

答案 0 :(得分:1)

你可以尝试这个功能

iconv(July4th_clean, "latin1", "ASCII", sub="")

重复问题,see post

答案 1 :(得分:1)

您可以使用gsub删除所有非ASCII字符。

Texts = c("Let the stormy clouds chase, everyone from the place ☁  ♪ ♬",
    "See you soon brother ☮ ",
    "A boring old-fashioned message" ) 

gsub("[^\x01-\x7F]", "", Texts)
[1] "Let the stormy clouds chase, everyone from the place    "
[2] "See you soon brother  "                                  
[3] "A boring old-fashioned message"

详细说明:的 您可以使用[ ]在正则表达式中指定字符类。当类描述以^开头时,它表示除了这些字符之外的所有内容。在这里,我已经指定了除字符1-127之外的所有内容,即除标准ASCII之外的所有内容,并且我已指定它们应替换为空字符串。