我尝试用其含义替换表情符号。
Tweets$text[19]
"I ❤️ flying . ☺️\U0001f44d"
对于此任务,我使用textclean
软件包。词典不仅包含表情符号描述,还包含字节码表示形式(x:列):
hash_emojis[1:3]
x y
1: <e2><86><95> up-down arrow
2: <e2><86><99> down-left arrow
3: <e2><86><a9> right arrow curving left
所以结果看起来像这样:
Tweets$text[19] = replace_emoji(Tweets$text[19], emoji_dt = lexicon::hash_emojis)
Tweets$text[19]
"I red heart <ef><b8><8f> flying . smiling face <ef><b8><8f> thumbs up "
我只想获取不带字节码表示的描述,因为我必须再次清理它。如何仅将“ y列”应用于文本?他们也许是处理R中表情符号的更好方法吗?
答案 0 :(得分:2)
使用replace_emoji
后,您可以使用replace_non_ascii
摆脱ASCII码
text <- "I ❤️ flying . ☺️\U0001f44d"
t <- replace_emoji(text)
replace_non_ascii(t)
"I red heart flying . smiling face thumbs up"