python:部分流式传输httpRequest /加载网站

时间:2014-01-25 01:14:18

标签: python http streaming web-crawler

我想知道在python中是否有一种“流”httpRequests的方法,以避免加载整个页面。

我目前正在做的是获取给定网址的html数据:

req = urllib2.Request(url)
response = urllib2.urlopen(req)
return response.read()

这种方式我总是加载整个网站,但由于我只需要一小部分,我使用更多带宽然后我需要。如果我在找到特定值/表达式后可以停止加载网站,或者如果我可以指定开始/结束加载网站的位置,甚至更好。从角色#3000开始加载直到#5000我会节省很多带宽。

提前谢谢 tschery

1 个答案:

答案 0 :(得分:1)

This stackoverflow answer显示了如何在Python中进行部分HTTP加载。您也可以使用response.read(N)(N是要读取的字节数),但不保证您下载的确切数量已下载。