我正计划做关于机器学习的学士论文,我想知道是否有任何方法可以提取一个大的推文数据集,以便将它们用于我的论文。我知道有几个推文的数据集,但我想用西班牙语提取一个,因为这种语言中没有人。我已经准备好尝试使用这个脚本twitterstream.py,但我不知道获取令牌的过程如何,如果获得令牌我将获得什么样的推文?,我的意思是我只会获得我朋友的推文?。获取数据集的过程如何?似乎有点失去了如何完成这项任务。
答案 0 :(得分:0)
您需要访问toke来授权自己使用twitter API。 (https://dev.twitter.com/docs/auth/obtaining-access-tokens) 完成后,您可以使用Twitter API。当然,如果推文是私人的,你将无法看到它们(除非你是"朋友"与该帐户)。
然后我建议您查看流API以查找所需的推文。 (https://dev.twitter.com/docs/api/streaming)据我所知,没有用于搜索Twitter API的语言过滤器,所以我建议你需要一个西班牙语的过滤器分类器。