应用错误收集

时间：2014-01-30 23:12:14

标签： url caching web time web-crawler

我有一组网址，我想估计它的年龄。让我用这种方式说出问题：

如何估算查询网址成功的最早时间点（假设GET请求的HTTP状态代码为200）？

我目前正在考虑的解决方案可能是Google（或其他一些抓取工具）在首次访问该网址（最好是API）时提供时间戳的一些（公开可用）方式。

我知道如何获得Google缓存版本的时代，例如：webcache.googleusercontent.com/search?q=cache:stackoverflow.com。但是，由于缓存版本的更新频率相当高，因此不太有用。

答案 0 :(得分：3)

不可靠的方式。（好吧，除非你拥有你感兴趣的服务器的所有访问日志文件。）

Internet Archive Wayback Machine显示第一次抓取网页。当然，它们可能需要一段时间，直到他们的机器人第一次找到并抓取页面，因此大多数索引页面可能都要老了。

另请注意：只要抓取工具被阻止（例如，通过 robots.txt ），就会删除历史记录/副本（from the FAQ）：

如果在直接所有者请求中排除了URL，则该排除是追溯性和永久性的。