我正在python 3中重写我的情绪分析脚本。我需要根据文本中的表情符号分割数据。在python 2中,我可以只查找像“:)”这样的文本表情符号。然而,在python 3中,我得到的文本表情符号更少,而实际表情符号则更多:
I'm so excited to see what my future holds
最后那个空方格实际上是一个表情符号图形。而不是在Python 2x中:
I'm so excited to see what my future holds :)
问题是,我该如何处理这些图形表情符号?这些是什么?如果是unicode,那么我可以使用这些图形表情符号提取数据。
仅供参考,这就是我在python 2x中的表现方式
happy_set = set([":)",":-)","=)"])
sad_set = set([":(",":-(","=("])
happy = [tweet.split() for tweet in tweet_list for face in happy_set if face in tweet]
sad = [tweet.split() for tweet in tweet_list for face in sad_set if face in tweet]