Question

我使用Twint来提取特定搜索产生的推文（这给了我大约10万条推文）。问题是Twint使用表情符号标题而不是其特定的unicode输出推文内容。这是一个例子：

@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart>  <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo

这很糟糕，因为我想将推文标记为进一步分析（例如表情符号使用），传统的推文标记符（例如nltk TweetTokenizer）不能正确地进行标记化。

您对如何将这些表情符号转换为各自的unicode（我只能使用re提取标题）有任何建议吗？

我在哪里可以获得emojepedia使用的数据？或者我在哪里可以下载包含其unicode代码和标题的所有twitter表情符号列表？

Answer 1

我找到了这些files（在@Philip Couling的帮助下）。虽然需要一些额外的处理，但这是解决问题的开始。

Answer 2

这是一个python包可以解决你的问题

emotlib - Python emoji + emoticon Library (<ゝω・)☆ ‍‍

易于使用并支持2.7,3.6并支持表情符号11.0。

但是你仍然需要先处理文本。

将表情符号标题转换为unicode

2 个答案: