从文本中提取编码的正面和负面表情符号

时间:2015-02-16 15:28:27

标签: python regex unicode encoding emoticons

我想从推文中计算正面和负面表情符号。我正在使用Python。我设计了以下正则表达式来分别提取正面和负面情绪:

((:|;|8)+(-)*(\)|D|P|p)+)|((\()+(-)*(:|;)+)
((:)+(-|')*(\()+)|((\))+(-)*(:|;)+)

但我的召回率非常低。我认为其中一个原因可能是表情符号经常被编码。 我看到了以下问题:

removing characters of a specific unicode range from a string

PHP : writing a simple removeEmoji function

然而,在这些问题的答案中提出的正则表达式给我带来了许多误报,更不用说这些都不是设计或意图分别处理正面和负面表情符号。

我还看到了这个Github link for a list of unicode smileysWikipedia link for a list of emoticons。但我不确定如何将它们用于我的目的。

0 个答案:

没有答案