仅在URL是HTML网页时下载URL

时间:2012-03-17 13:50:32

标签: python download html-parsing beautifulsoup printing-web-page

我想编写一个python脚本,只有在网页包含HTML时才会下载网页。我知道content-type中的header将被使用。请建议一定要这样做,因为我无法在文件下载之前获得header

1 个答案:

答案 0 :(得分:2)

使用http.client向网址发送HEAD请求。这将仅返回资源的标头,然后您可以查看content-type标头并查看它是否text/html。如果是,则向网址发送GET请求以获取正文。