有没有让python(模块请求)在使用get方法时不加载完整网页的方法?

时间:2014-05-04 08:36:13

标签: python

不确定标题是否有意义。让我在这里提供更多详细信息:我使用请求模块获取一些网页,然后使用 BeautifulSoup 重新来解析它们。这些页面有点大,需要一点时间才能得到它们。在看了HTML之后,我发现我关心的所有信息都存在于HTML的前几行(比如前100行)中。所以我的问题是,如果有一种方法只在使用 requests.get 方法时加载前100行?

P.S。 请求模块在此处不是必需的。如果没有这个模块可以解决问题,我就可以了。很多人。

1 个答案:

答案 0 :(得分:0)

请求包正好支持readlines()函数:

import requests

r = requests.get('http://google.com', stream=True)
first_five_lines = r.raw.readlines(5)
print ''.join(first_five_lines)