在标记推文时忽略“️”

时间:2018-11-13 02:18:40

标签: python twitter tweepy sentiment-analysis

我正在制作一个Twitter网络爬虫,用于情感分析。 我正在关注本教程https://marcobonzanini.com/2015/03/23/mining-twitter-data-with-python-part-4-rugby-and-term-co-occurrences/

在本教程(第3部分)中,Marco教了如何在其算法中使用Stop变量来忽略某些术语。但是,当我开始收集推文并尝试匹配共现矩阵时,该矩阵包含与术语y相同的推文中出现术语x的次数-tweepy正在收集该术语:'️' 。我不知道Unicode是什么,如何忽略。

我已经尝试过单引号,单引号/右引号,但这些似乎都不起作用。

有什么想法吗?

0 个答案:

没有答案