估算网址的年龄

时间:2014-01-30 23:12:14

标签: url caching web time web-crawler

我有一组网址,我想估计它的年龄。让我用这种方式说出问题:

如何估算查询网址成功的最早时间点(假设GET请求的HTTP状态代码为200)?

我目前正在考虑的解决方案可能是Google(或其他一些抓取工具)在首次访问该网址(最好是API)时提供时间戳的一些(公开可用)方式。

我知道如何获得Google缓存版本的时代,例如:webcache.googleusercontent.com/search?q=cache:stackoverflow.com。但是,由于缓存版本的更新频率相当高,因此不太有用。

1 个答案:

答案 0 :(得分:3)

不可靠的方式。 (好吧,除非你拥有你感兴趣的服务器的所有访问日志文件。)

Internet Archive Wayback Machine显示第一次抓取网页。当然,它们可能需要一段时间,直到他们的机器人第一次找到并抓取页面,因此大多数索引页面可能都要老了。

另请注意:只要抓取工具被阻止(例如,通过 robots.txt ),就会删除历史记录/副本(from the FAQ):

  

如果在直接所有者请求中排除了URL,则该排除是追溯性和永久性的。