将表情符号标题转换为unicode

时间:2018-06-06 15:07:57

标签: python twitter nlp emoji

我使用Twint来提取特定搜索产生的推文(这给了我大约10万条推文)。 问题是Twint使用表情符号标题而不是其特定的unicode输出推文内容。这是一个例子:

@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart>  <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo

这很糟糕,因为我想将推文标记为进一步分析(例如表情符号使用),传统的推文标记符(例如nltk TweetTokenizer)不能正确地进行标记化。

您对如何将这些表情符号转换为各自的unicode(我只能使用re提取标题)有任何建议吗?

我在哪里可以获得emojepedia使用的数据?或者我在哪里可以下载包含其unicode代码和标题的所有twitter表情符号列表?

2 个答案:

答案 0 :(得分:0)

我找到了这些files(在@Philip Couling的帮助下)。虽然需要一些额外的处理,但这是解决问题的开始。

答案 1 :(得分:0)

这是一个python包可以解决你的问题

emotlib - Python emoji + emoticon Library (<ゝω・)☆ ‍‍

易于使用并支持2.7,3.6并支持表情符号11.0。

但是你仍然需要先处理文本。