Question

我想从twitter抓取数据。我使用的是twitter api，但受到速率限制的限制，它的运行速度非常慢。或者，我可以通过直接解析URL来绕过twitter api，例如。 urllib包。但这就是我所知道的。

你们可以提供更多关于如何在不使用twitter api的情况下抓取时间线和关注Twitter数据的帮助吗？你有什么建议吗？提前谢谢。

PS：我正在使用Python进行编程。

Answer 1

您需要在此过程中使用BeautifulSoup。

from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
     print tweet.find('p').text

使用urllib而不是twitter api抓取twitter

1 个答案: