用R抓取Twitter数据

时间:2015-03-30 13:29:03

标签: r twitter scrape tweetr

我试图找到一种使用主题标签抓取Tweeter数据的简单方法。例如,我希望能够抓取包含#testhash的所有推文。

我已经看过几个帖子,特别是一个帖子(http://www.datablog.sytpp.net/2014/04/scraping-twitter-with-r-a-how-to/),但似乎tweetR软件包已损坏(不会在我的电脑上安装并导致R崩溃)。 任何想法都会很棒,但我对R特别熟悉,所以会更好。

1 个答案:

答案 0 :(得分:2)

2015年4月,the blog post you mentioned中的代码不再适用于我(使用twitteR v1.1.8)。

我不知道为什么你没有成功安装twitteR软件包。尝试自己逐个安装依赖项。 每个人:

方法,bit64,rjson,DBI,httr,twitteR

运行

install.packages("methods")
#...

也许这有助于了解问题。

然后我尝试了这个(快速而肮脏的解决方案。不要与任何人分享您的明文凭据):

library(twitteR)

#, please see https://apps.twitter.com/
consumerKey = "PH...."   # from your app name
consumerSecret = "zr...."
accessToken = "5199999-22...."
accessSecret = "94..."
options(httr_oauth_cache=TRUE) # skip question appearing on console
setup_twitter_oauth(consumer_key = consumerKey, consumer_secret = consumerSecret,
                    access_token = accessToken, access_secret = accessSecret)

# tweets about beer
searchTwitter("#beer", n=100)
# tweets about Berlin
searchTwitter("#berlin", n=100)
# tweets about nerds
searchTwitter("#nerds", n=100)
# tweets about R
#Rtweets(n=42)
# ...
##########################################################################
## lets test out what our session limits look like now after these requests
##########################################################################
rate.limit <- getCurRateLimitInfo()
# print out all metrics that have been changed
rate.limit[rate.limit$limit != rate.limit$remaining,]