Question

对于我的数据库项目，我需要从Twitter中提取超过50GB的数据。为此，我使用以下代码连接到Twitter的流。我使用python和twitter库。这是代码：

try:
    import json
except ImportError:
    import simplejson as json


from twitter import Twitter, OAuth, TwitterHTTPError, TwitterStream


ACCESS_TOKEN = "<my-token>"
ACCESS_SECRET = "my-secret"
CONSUMER_KEY = "my-key"
CONSUMER_SECRET = "my-key-secret"

oauth = OAuth(ACCESS_TOKEN, ACCESS_SECRET, CONSUMER_KEY, CONSUMER_SECRET)


twitter_stream = TwitterStream(auth=oauth)


iterator = twitter_stream.statuses.sample()


for tweet in iterator:
    print json.dumps(tweet)

但是使用此代码，它只能生成大约750kb的数据。然后它显示the connection is timed out.是否有任何方法可以通过更改代码而不连接超时来生成大数据（如50gb或更多）？

还有我如何保存这些大数据？（我是否有可能找到这些数据，以某种方式设法以json格式存储所有数据并将这些数据上传到云端，如谷歌驱动器？如果那么请告诉我。

如何从Twitter获取大数据集？

0 个答案: