应用错误收集

仅在URL是HTML网页时下载URL

时间：2012-03-17 13:50:32

标签： python download html-parsing beautifulsoup printing-web-page

我想编写一个python脚本，只有在网页包含HTML时才会下载网页。我知道content-type中的header将被使用。请建议一定要这样做，因为我无法在文件下载之前获得header。

1 个答案:

答案 0 :(得分：2)

使用http.client向网址发送HEAD请求。这将仅返回资源的标头，然后您可以查看content-type标头并查看它是否text/html。如果是，则向网址发送GET请求以获取正文。