Twitter:如何提取包含符号(!,%,$)的推文?

时间:2017-11-22 00:01:12

标签: python twitter web-scraping data-mining

对于一个项目,我希望能够创建一个包含一些特定符号串的推文数据集。由于我还希望尽可能早地回到过去,我尝试使用此处提到的GetOldTweets脚本(https://github.com/Jefferson-Henrique/GetOldTweets-python):https://stackoverflow.com/a/35077920/5858873

问题是,它无法提取包含符号作为输入的推文。实际上,人们甚至无法直接在Twitter上搜索任何由必需符号组成的推文。

为了更清楚地解释问题,请考虑以下示例案例。我想提取包含字符串'!!!'的所有推文在过去两年内。

这样做的最佳方法是什么(如果这是可行的话)?

3 个答案:

答案 0 :(得分:1)

您可以根据自己的要求创建自己的正则表达式 然后点击推特数据来提取特定的推文。

答案 1 :(得分:1)

我找到了这个有趣的资源:https://webapps.stackexchange.com/questions/92196/search-for-tweets-with-special-characters

它基本上表示某些字符无法搜索,因为Twitter已阻止其使用。

我相信你应该做的是搜索通过所有 推文特定范围的范围内,然后在每条推文的正文消息上使用字符串方法find。然后,当您达到特定的运行时间或发现特定数量的推文时,您就会停止。

答案 2 :(得分:0)

您可以使用各种标准从Twitter API下载和存储数据(搜索词典中的单词,位置搜索,流行的Twitter帐户等)它肯定不会是整个数据,但您将拥有一些它

然后在本地搜索这些推文。

这些字符在网址中也有效,因此请在搜索前删除网址。

另外,请不要忘记检查从Twitter获取的数据是否合法。