这可能看起来像一个愚蠢的问题,但是是否可以仅检索网页的一部分(例如,让服务器仅发送特定的<div>
)?我知道只能get the HEAD of a page via HTTP (at least in Python)。
我认为它直接违反了HTTP GET的工作方式,但无论如何我还是决定要问。
我正在考虑网页抓取数千页,我注意到数据使用率非常高。我不需要所有页面,只需要相关部分。
答案 0 :(得分:2)
这取决于“页面的特定部分”的含义。
HTTP协议允许使用起始位置和响应大小来询问部分内容,请参阅other SO question Retreive part of web page中所述的malloc()
标头。
如果您希望得到类似“只是页面上的表格”的内容,那么您运气不佳,因为无法在HTTP中表达此类请求。