Question

我想知道在python中是否有一种“流”httpRequests的方法，以避免加载整个页面。

我目前正在做的是获取给定网址的html数据：

req = urllib2.Request(url)
response = urllib2.urlopen(req)
return response.read()

这种方式我总是加载整个网站，但由于我只需要一小部分，我使用更多带宽然后我需要。如果我在找到特定值/表达式后可以停止加载网站，或者如果我可以指定开始/结束加载网站的位置，甚至更好。从角色＃3000开始加载直到＃5000我会节省很多带宽。

提前谢谢 tschery

Answer 1

This stackoverflow answer显示了如何在Python中进行部分HTTP加载。您也可以使用response.read(N)（N是要读取的字节数），但不保证您下载的确切数量已下载。