来自twitter的语料库

时间:2012-12-09 11:51:40

标签: python twitter

我是Twitter用作开发人员的新手。我看到有人可以使用推文的ID下载数据集。但是,twitter API有下载限制。

有没有更快的方法呢?

2 个答案:

答案 0 :(得分:2)

如果您只想获取用户名的推文,可以执行以下操作:

import httplib
import json
import urllib2
import pprint

def feed(username, messages=50):
    template = 'https://api.twitter.com/1/statuses/user_timeline.json?' + \
               'include_entities=false&include_rts=true&screen_name=%s&count=%i'
    url    = template % (username, messages)
    output = urllib2.urlopen(url)
    html   = ''.join(output.readlines())
    tweet  = json.loads(html)
    # pprint.pprint(tweet)
    return list(map(lambda t : t['text'], tweet))

result = feed('noelevans', messages=100)

答案 1 :(得分:0)

即使您没有用户名,也可以执行此操作以获取一组推文:

import httplib
import json
import urllib2
import pprint

def feed(ids):
    result   = []
    template = 'https://api.twitter.com/1/statuses/show.json?id=%i&include_entities=true'
    for id in ids:
        url    = template % id
        output = urllib2.urlopen(url)
        html   = ''.join(output.readlines())
        tweet  = json.loads(html)
        # pprint.pprint(tweet)
        result.append(tweet['text'])
    return result

tweets = [277496833788489728, 276760134124969984]
result = feed(tweets)