在不下载网页的情况下使用Python检查链接是否已死

时间:2010-07-12 15:13:36

标签: python urllib2

对于那些了解wget的人,它有一个选项--spider,可以让人检查链接是否损坏,而无需实际下载网页。我想在Python中做同样的事情。我的问题是我有一个我要检查的100'000个链接列表,每天最多一次,每周至少一次。无论如何,这会产生大量不必要的流量。

据我所知urllib2.urlopen() documentation,它不下载页面而只下载元信息。它是否正确?或者还有其他方法可以很好地完成这项工作吗?

最佳,
特勒尔斯

2 个答案:

答案 0 :(得分:9)

您应该使用HEAD Request,它会向Web服务器询问没有正文的标题。见How do you send a HEAD HTTP request in Python 2?

答案 1 :(得分:-1)

不确定如何在python中执行此操作,但通常您可以检查“响应标头”并检查代码200的“状态代码”。此时您可以停止阅读该页面并继续使用您的下一个链接不得不下载整个页面只是'响应标题' Status Codes

列表