对于一个项目,我希望能够创建一个包含一些特定符号串的推文数据集。由于我还希望尽可能早地回到过去,我尝试使用此处提到的GetOldTweets脚本(https://github.com/Jefferson-Henrique/GetOldTweets-python):https://stackoverflow.com/a/35077920/5858873。
问题是,它无法提取包含符号作为输入的推文。实际上,人们甚至无法直接在Twitter上搜索任何由必需符号组成的推文。
为了更清楚地解释问题,请考虑以下示例案例。我想提取包含字符串'!!!'的所有推文在过去两年内。
这样做的最佳方法是什么(如果这是可行的话)?
答案 0 :(得分:1)
您可以根据自己的要求创建自己的正则表达式 然后点击推特数据来提取特定的推文。
答案 1 :(得分:1)
我找到了这个有趣的资源:https://webapps.stackexchange.com/questions/92196/search-for-tweets-with-special-characters
它基本上表示某些字符无法搜索,因为Twitter已阻止其使用。
我相信你应该做的是搜索通过所有 推文在特定范围的范围内,然后在每条推文的正文消息上使用字符串方法find
。然后,当您达到特定的运行时间或发现特定数量的推文时,您就会停止。
答案 2 :(得分:0)
您可以使用各种标准从Twitter API下载和存储数据(搜索词典中的单词,位置搜索,流行的Twitter帐户等)它肯定不会是整个数据,但您将拥有一些它
然后在本地搜索这些推文。
这些字符在网址中也有效,因此请在搜索前删除网址。
另外,请不要忘记检查从Twitter获取的数据是否合法。