我应该使用哪个Twitter API来为NLP研究提取大量推文?

时间:2012-03-27 15:54:48

标签: api twitter nlp

我想尽可能多地提取包含给定关键字(通常是公司名称)的推文。

我一直在使用Twitter搜索API,但它仅限于“最近的推文”。因此,对于一个相对罕见的关键字,我的推文不会超过500条。

Twitter说你不应该使用Search API进行研究。那么,我应该使用哪种API?

2 个答案:

答案 0 :(得分:4)

要获取包含特定关键字的大量推文,请使用Streaming APIStatuses/Filter

首先,创建一个文件(例如“tracking.txt”),其条件为track,关键字以逗号分隔。这可以包括哈希标签。例如,我使用以下内容获取带有链接和特定主题标签的推文。

track=http #baby,http #family,http #children, ...

然后,使用curl将流重定向到文件。请务必使用您的推特ID和密码。

curl -d @tracking.txt https://stream.twitter.com/1/statuses/filter.json -uAnyTwitterUser:Password > stream.json

答案 1 :(得分:2)

Twitter不提供对历史数据的免费访问。 DatasiftGnip都在销售Twitter的消防软件。