我想从推文中计算正面和负面表情符号。我正在使用Python。我设计了以下正则表达式来分别提取正面和负面情绪:
((:|;|8)+(-)*(\)|D|P|p)+)|((\()+(-)*(:|;)+)
((:)+(-|')*(\()+)|((\))+(-)*(:|;)+)
但我的召回率非常低。我认为其中一个原因可能是表情符号经常被编码。 我看到了以下问题:
removing characters of a specific unicode range from a string
PHP : writing a simple removeEmoji function
然而,在这些问题的答案中提出的正则表达式给我带来了许多误报,更不用说这些都不是设计或意图分别处理正面和负面表情符号。
我还看到了这个Github link for a list of unicode smileys和Wikipedia link for a list of emoticons。但我不确定如何将它们用于我的目的。