我正在制作一个Twitter网络爬虫,用于情感分析。 我正在关注本教程https://marcobonzanini.com/2015/03/23/mining-twitter-data-with-python-part-4-rugby-and-term-co-occurrences/。
在本教程(第3部分)中,Marco教了如何在其算法中使用Stop变量来忽略某些术语。但是,当我开始收集推文并尝试匹配共现矩阵时,该矩阵包含与术语y相同的推文中出现术语x的次数-tweepy正在收集该术语:'️'
。我不知道Unicode是什么,如何忽略。
我已经尝试过单引号,单引号/右引号,但这些似乎都不起作用。
有什么想法吗?