替换文字中的表情符号

时间:2018-08-28 14:18:59

标签: r text-mining

我尝试用其含义替换表情符号。

Tweets$text[19]
"I ❤️ flying  . ☺️\U0001f44d"

对于此任务,我使用textclean软件包。词典不仅包含表情符号描述,还包含字节码表示形式(x:列):

hash_emojis[1:3]
              x                        y
1: <e2><86><95>            up-down arrow
2: <e2><86><99>          down-left arrow
3: <e2><86><a9> right arrow curving left

所以结果看起来像这样:

Tweets$text[19] = replace_emoji(Tweets$text[19], emoji_dt = lexicon::hash_emojis)

Tweets$text[19]

 "I red heart <ef><b8><8f> flying . smiling face <ef><b8><8f> thumbs up "

我只想获取不带字节码表示的描述,因为我必须再次清理它。如何仅将“ y列”应用于文本?他们也许是处理R中表情符号的更好方法吗?

1 个答案:

答案 0 :(得分:2)

使用replace_emoji后,您可以使用replace_non_ascii摆脱ASCII码

text <- "I ❤️ flying  . ☺️\U0001f44d"
t <- replace_emoji(text)
replace_non_ascii(t)
"I red heart flying . smiling face thumbs up"