使用urllib而不是twitter api抓取twitter

时间:2013-06-21 17:55:11

标签: python twitter urllib web-crawler

我想从twitter抓取数据。我使用的是twitter api,但受到速率限制的限制,它的运行速度非常慢。 或者,我可以通过直接解析URL来绕过twitter api,例如。 urllib包。但这就是我所知道的。

你们可以提供更多关于如何在不使用twitter api的情况下抓取时间线和关注Twitter数据的帮助吗?你有什么建议吗?提前谢谢。

PS:我正在使用Python进行编程。

1 个答案:

答案 0 :(得分:1)

您需要在此过程中使用BeautifulSoup。

from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
     print tweet.find('p').text