应用错误收集

如何从twitter中提取数据集？

时间：2014-05-27 05:37:34

标签： machine-learning nlp social-networking data-mining sentiment-analysis

我正计划做关于机器学习的学士论文，我想知道是否有任何方法可以提取一个大的推文数据集，以便将它们用于我的论文。我知道有几个推文的数据集，但我想用西班牙语提取一个，因为这种语言中没有人。我已经准备好尝试使用这个脚本twitterstream.py，但我不知道获取令牌的过程如何，如果获得令牌我将获得什么样的推文？，我的意思是我只会获得我朋友的推文？。获取数据集的过程如何？似乎有点失去了如何完成这项任务。

1 个答案:

答案 0 :(得分：0)

您需要访问toke来授权自己使用twitter API。（https://dev.twitter.com/docs/auth/obtaining-access-tokens）完成后，您可以使用Twitter API。当然，如果推文是私人的，你将无法看到它们（除非你是＆＃34;朋友＆＃34;与该帐户）。

然后我建议您查看流API以查找所需的推文。（https://dev.twitter.com/docs/api/streaming）据我所知，没有用于搜索Twitter API的语言过滤器，所以我建议你需要一个西班牙语的过滤器分类器。