我想从twitter抓取数据。我使用的是twitter api,但受到速率限制的限制,它的运行速度非常慢。 或者,我可以通过直接解析URL来绕过twitter api,例如。 urllib包。但这就是我所知道的。
你们可以提供更多关于如何在不使用twitter api的情况下抓取时间线和关注Twitter数据的帮助吗?你有什么建议吗?提前谢谢。
PS:我正在使用Python进行编程。
答案 0 :(得分:1)
您需要在此过程中使用BeautifulSoup。
from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
print tweet.find('p').text