仅从网页请求元标记

时间:2015-10-25 13:55:46

标签: javascript http web-scraping meta

有没有办法只需要HTML页面的头部而不需要下载完整的网页?我只对描述,关键字和标题(标签)等元标记感兴趣。

概括是否有任何HTTP方法可用于仅从服务器请求特定标签而无需下载整个网页?

请告诉我。

2 个答案:

答案 0 :(得分:6)

您正在寻找的东西是在HTML级别定义的,HTTP层之上的几层。所以不,没有万无一失的方法只能从HTML页面请求某些标签。

鉴于这些标记必定存在于页面的<head>部分,您可以在遇到</head>标记后停止阅读响应 - 如果HTML格式正确。< / p>

答案 1 :(得分:5)

没有

最接近的HTTP是the Range header,它允许您从支持它的服务器请求特定字节。

问题在于,在您提出请求之前,您无法可靠地知道文档的head部分将占用多少字节。