我想知道在python中是否有一种“流”httpRequests的方法,以避免加载整个页面。
我目前正在做的是获取给定网址的html数据:
req = urllib2.Request(url)
response = urllib2.urlopen(req)
return response.read()
这种方式我总是加载整个网站,但由于我只需要一小部分,我使用更多带宽然后我需要。如果我在找到特定值/表达式后可以停止加载网站,或者如果我可以指定开始/结束加载网站的位置,甚至更好。从角色#3000开始加载直到#5000我会节省很多带宽。
提前谢谢 tschery答案 0 :(得分:1)
This stackoverflow answer显示了如何在Python中进行部分HTTP加载。您也可以使用response.read(N)
(N是要读取的字节数),但不保证您下载的确切数量已下载。