我试图找到一种使用主题标签抓取Tweeter数据的简单方法。例如,我希望能够抓取包含#testhash的所有推文。
我已经看过几个帖子,特别是一个帖子(http://www.datablog.sytpp.net/2014/04/scraping-twitter-with-r-a-how-to/),但似乎tweetR软件包已损坏(不会在我的电脑上安装并导致R崩溃)。 任何想法都会很棒,但我对R特别熟悉,所以会更好。
答案 0 :(得分:2)
2015年4月,the blog post you mentioned中的代码不再适用于我(使用twitteR v1.1.8)。
我不知道为什么你没有成功安装twitteR软件包。尝试自己逐个安装依赖项。 每个人:
方法,bit64,rjson,DBI,httr,twitteR
运行
install.packages("methods")
#...
也许这有助于了解问题。
然后我尝试了这个(快速而肮脏的解决方案。不要与任何人分享您的明文凭据):
library(twitteR)
#, please see https://apps.twitter.com/
consumerKey = "PH...." # from your app name
consumerSecret = "zr...."
accessToken = "5199999-22...."
accessSecret = "94..."
options(httr_oauth_cache=TRUE) # skip question appearing on console
setup_twitter_oauth(consumer_key = consumerKey, consumer_secret = consumerSecret,
access_token = accessToken, access_secret = accessSecret)
# tweets about beer
searchTwitter("#beer", n=100)
# tweets about Berlin
searchTwitter("#berlin", n=100)
# tweets about nerds
searchTwitter("#nerds", n=100)
# tweets about R
#Rtweets(n=42)
# ...
##########################################################################
## lets test out what our session limits look like now after these requests
##########################################################################
rate.limit <- getCurRateLimitInfo()
# print out all metrics that have been changed
rate.limit[rate.limit$limit != rate.limit$remaining,]