我使用Twint来提取特定搜索产生的推文(这给了我大约10万条推文)。 问题是Twint使用表情符号标题而不是其特定的unicode输出推文内容。这是一个例子:
@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart> <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo
这很糟糕,因为我想将推文标记为进一步分析(例如表情符号使用),传统的推文标记符(例如nltk TweetTokenizer)不能正确地进行标记化。
您对如何将这些表情符号转换为各自的unicode(我只能使用re
提取标题)有任何建议吗?
我在哪里可以获得emojepedia使用的数据?或者我在哪里可以下载包含其unicode代码和标题的所有twitter表情符号列表?
答案 0 :(得分:0)
我找到了这些files(在@Philip Couling的帮助下)。虽然需要一些额外的处理,但这是解决问题的开始。
答案 1 :(得分:0)
这是一个python包可以解决你的问题
emotlib - Python emoji + emoticon Library (<ゝω・)☆
易于使用并支持2.7,3.6并支持表情符号11.0。
但是你仍然需要先处理文本。