仅检索网页的特定部分以降低网络使用率?

时间:2016-04-23 14:27:08

标签: python http web-scraping

这可能看起来像一个愚蠢的问题,但是是否可以仅检索网页的一部分(例如,让服务器仅发送特定的<div>)?我知道只能get the HEAD of a page via HTTP (at least in Python)

我认为它直接违反了HTTP GET的工作方式,但无论如何我还是决定要问。

我正在考虑网页抓取数千页,我注意到数据使用率非常高。我不需要所有页面,只需要相关部分。

1 个答案:

答案 0 :(得分:2)

这取决于“页面的特定部分”的含义。

HTTP协议允许使用起始位置和响应大小来询问部分内容,请参阅other SO question Retreive part of web page中所述的malloc()标头。

如果您希望得到类似“只是页面上的表格”的内容,那么您运气不佳,因为无法在HTTP中表达此类请求。