对于我的数据库项目,我需要从Twitter中提取超过50GB的数据。为此,我使用以下代码连接到Twitter的流。我使用python和twitter库。这是代码:
try:
import json
except ImportError:
import simplejson as json
from twitter import Twitter, OAuth, TwitterHTTPError, TwitterStream
ACCESS_TOKEN = "<my-token>"
ACCESS_SECRET = "my-secret"
CONSUMER_KEY = "my-key"
CONSUMER_SECRET = "my-key-secret"
oauth = OAuth(ACCESS_TOKEN, ACCESS_SECRET, CONSUMER_KEY, CONSUMER_SECRET)
twitter_stream = TwitterStream(auth=oauth)
iterator = twitter_stream.statuses.sample()
for tweet in iterator:
print json.dumps(tweet)
但是使用此代码,它只能生成大约750kb的数据。然后它显示the connection is timed out.
是否有任何方法可以通过更改代码而不连接超时来生成大数据(如50gb或更多)?
还有我如何保存这些大数据? (我是否有可能找到这些数据,以某种方式设法以json
格式存储所有数据并将这些数据上传到云端,如谷歌驱动器?如果那么请告诉我。