我正在使用tm软件包来清理Twitter语料库。但是,程序包无法清除表情符号。
这是一个复制的代码:
July4th_clean <- tm_map(July4th_clean, content_transformer(tolower))
Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes ������������������ july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'
有人能指出我正确的方向使用tm包删除表情符号吗?
谢谢,
路易斯
答案 0 :(得分:1)
答案 1 :(得分:1)
您可以使用gsub
删除所有非ASCII字符。
Texts = c("Let the stormy clouds chase, everyone from the place ☁ ♪ ♬",
"See you soon brother ☮ ",
"A boring old-fashioned message" )
gsub("[^\x01-\x7F]", "", Texts)
[1] "Let the stormy clouds chase, everyone from the place "
[2] "See you soon brother "
[3] "A boring old-fashioned message"
详细说明:的
您可以使用[ ]
在正则表达式中指定字符类。当类描述以^
开头时,它表示除了这些字符之外的所有内容。在这里,我已经指定了除字符1-127之外的所有内容,即除标准ASCII之外的所有内容,并且我已指定它们应替换为空字符串。