标签: python download html-parsing beautifulsoup printing-web-page
我想编写一个python脚本,只有在网页包含HTML时才会下载网页。我知道content-type中的header将被使用。请建议一定要这样做,因为我无法在文件下载之前获得header。
content-type
header
答案 0 :(得分:2)
使用http.client向网址发送HEAD请求。这将仅返回资源的标头,然后您可以查看content-type标头并查看它是否text/html。如果是,则向网址发送GET请求以获取正文。
http.client
HEAD
text/html
GET