在网站上获取最新更改

时间:2012-03-16 13:54:05

标签: python algorithm http web-scraping beautifulsoup

我需要在Python中创建软件,以便在发生更改时监控网站。目前我有定期任务,并检查以前版本的网站内容。有没有更简单的方法来检查网站的内容是否已经更改,可能是最后一次更改的时间,以避免下载内容?

2 个答案:

答案 0 :(得分:4)

在实际再次下载完整内容之前,您可以使用HEAD HTTP方法并查看Date-ModifiedETag标题等。

但是,当实体(URL)的内容发生变化时,或者甚至无法正确响应HEAD方法时,没有什么能保证服务器实际更新这些标头。

答案 1 :(得分:1)

尽管它没有回答你的问题我认为值得一提的是你不必存储以前版本的网站来寻找变化。您只需计算md5之和并存储此总和,然后将其计入新版本并检查它们是否相等。

关于问题本身,AKX给出了一个很好的答案 - 只需查看Date-Modified标题,但请记住它不能保证有效。