标签: http html-parsing head
我正在编写一些链接抓取代码,我希望只抓取给定网页的<head>部分。显然我对HEAD请求是什么感到困惑,因为我认为应该这样做。相反,它只返回HTTP标头。
<head>
有没有办法只获取给定页面的<head>部分,而无需获取整个文档?
答案 0 :(得分:2)
不,HTTP协议中没有规定(根本不知道HTML)。你需要做一个正确的GET或POST,使用HTML解析器来提取你需要的数据。
你可以做的唯一限制你得到的是使用Range标题,但这只是猜测你需要多少数据。
Range