如何从Twitter获取大数据集?

时间:2017-04-22 17:51:57

标签: twitter bigdata

对于我的数据库项目,我需要从Twitter中提取超过50GB的数据。为此,我使用以下代码连接到Twitter的流。我使用python和twitter库。这是代码:

try:
    import json
except ImportError:
    import simplejson as json


from twitter import Twitter, OAuth, TwitterHTTPError, TwitterStream


ACCESS_TOKEN = "<my-token>"
ACCESS_SECRET = "my-secret"
CONSUMER_KEY = "my-key"
CONSUMER_SECRET = "my-key-secret"

oauth = OAuth(ACCESS_TOKEN, ACCESS_SECRET, CONSUMER_KEY, CONSUMER_SECRET)


twitter_stream = TwitterStream(auth=oauth)


iterator = twitter_stream.statuses.sample()


for tweet in iterator:
    print json.dumps(tweet)  

但是使用此代码,它只能生成大约750kb的数据。然后它显示the connection is timed out.是否有任何方法可以通过更改代码而不连接超时来生成大数据(如50gb或更多)?

还有我如何保存这些大数据? (我是否有可能找到这些数据,以某种方式设法以json格式存储所有数据并将这些数据上传到云端,如谷歌驱动器?如果那么请告诉我。

0 个答案:

没有答案